IT 인터넷/SNS

"원작 감성까지 살린다"...일레븐랩스, 신규 AI 더빙 모델 출시

주원규 기자

파이낸셜뉴스

[파이낸셜뉴스] 인공지능(AI) 오디오 스타트업 일레븐랩스가 원본 음성의 감정과 억양을 보존하는 신규 AI 더빙 모델 '더빙 v2(Dubbing v2)'를 출시했다고 16일 밝혔다. 텍스트 스크립트 기반 AI 더빙의 한계로 지적되던 기계적인 억양과 감정 손실 문제를 개선해, K-콘텐츠의 글로벌 진출 시 수반되는 현지화 비용과 시간을 대폭 줄일 수 있을 것으로 전망된다.

이번에 공개된 더빙 v2의 핵심은 화자의 실제 발화 특성을 다국어 음성에 구현하는 데 있다. 단순 텍스트 번역을 넘어 원본 음성에 담긴 감정선, 톤, 억양, 말의 간격을 분석해 이질감을 최소화했다. 또한 단어 직역을 배제하고 목표 언어 문맥에 맞춰 자연스러운 현지화가 가능하다.

오디오 편집 공정의 편의성도 크게 높였다. 영상 조작이나 강제적인 립싱크 생성 없이, 번역 후 생성된 음성이 원본 발화의 시작과 종료 타이밍에 맞춰 정렬되는 '음성 타이밍 자동 조정' 기능이 탑재됐다. 아울러어 별도의 수동 작업 없이 화자 고유의 음색과 피치를 반영하는 '자동 보이스 클로닝'을 지원하며, 영어를 포함해 90개 이상의 언어로 더빙을 자동 생성한다.

해당 기술은 번역, 성우 녹음, 오디오 편집 등 막대한 제작 공정이 요구되던 글로벌 더빙 시장의 구조를 개편할 것으로 기대된다. 드라마, 영화, 애니메이션 등 뿐만 아니라 게임 내 캐릭터 대사, 유튜버 크리에이터 영상, 기업 B2B 교육 영상 등 다양한 산업군에 적용이 가능하다.

더빙 v2는 일레븐랩스 자체 플랫폼을 통해 즉시 이용 가능하며, 대규모 콘텐츠 제작 파이프라인 및 기존 사내 시스템과 연동할 수 있는 B2B 기업용 API 서비스도 순차적으로 확대 제공될 예정이다.

홍상원 일레븐랩스 한국 총괄은 "번역된 음성이 원본 화자가 직접 말하는 것처럼 느껴지게 하는 것은 AI 더빙 분야의 오랜 난제였다"며 "감정 재현력과 싱크 조정 기능을 갖춘 더빙 v2가 국내 미디어 기업과 크리에이터들의 해외 진출 장벽을 낮추는 인프라가 될 것"이라고 말했다.

wongood@fnnews.com 주원규 기자