짤스튜디오, 단 15초 목소리로 내 음성을 완벽 복제하는 혁신적 AI 공개

음성 AI 기술이 경이로운 진화를 거듭하고 있다. 이제 단 15초만 내 목소리를 녹음하면, 마치 내가 직접 말하는 듯한 자연스러운 AI 음성을 만들 수 있는 시대가 열렸다.

국내 대표 콘텐츠 플랫폼 짤스튜디오는 최근, 1500시간 분량의 방대한 음성 데이터와 약 6억 개의 파라미터를 바탕으로 한 차세대 인공지능 음성 합성 모델 AI스튜디오 TTS’를 공개했다고 전했다. 이번 기술은 기존 음성 합성 기술의 고질적인 한계였던 장시간 녹음, 언어 및 화자 다양성 부족 문제를 단숨에 해결한 획기적인 혁신으로 평가된다고 밝혔다.

최신 AI 기술인 확산(Diffusion) 모델과 자체 개발한 음성 스타일 인코더를 결합하여 단 15초의 짧은 음성 샘플만으로도 발화 리듬, 억양, 감정 등 화자의 스타일 특성을 정밀하게 복원할 수 있다고 설명했다.

특히, 단일 모델 내에서 다국어·다화자 음성 합성이 동시에 가능하다는 점에서 기술적 진보가 크다고 강조했다.

일반적으로 수억 원 이상의 비용이 필요한 기술을 내부 개발비 약 500만 원 수준으로 자체 구축했다고 전했으며, 고가 장비나 서버 없이도 일반 PC 환경에서 1~3분 분량의 문장을 단 5초 만에 합성할 수 있다고 밝혔다. 여기에 자체 기술로 구현한 노이즈 제거 및 음질 향상 기술을 통해, 녹음 환경이 좋지 않아도 스튜디오 수준의 결과물을 확보할 수 있다고 설명했다.

짤스튜디오는 베타 서비스 런칭 후 단 6시간 만에 300개의 AI 캐릭터가 생성되었고, 천여 명 이상의 유저들이 생성한 문장 수가 2만여 개를 돌파했다고 전했다. 이어 “기술적 완성도에 대한 기대감이 높아지며, 베타 단계부터 폭발적인 사용량과 피드백이 이어지고 있다”고 밝혔다.

이번 기술을 통해 유튜브 숏츠, 인스타그램 릴스, 틱톡 등 숏폼 콘텐츠 시장에서 게임체인저가 될 것이라고 자신했다.

단시간에 브랜드 특화 음성을 제작할 수 있는 기술력을 기반으로 마케팅, 광고, 콘텐츠 제작 시장에서 빠르게 입지를 넓히고 있다고 전했다.

또한 이 기술은 교육 콘텐츠, 오디오북, 콜센터 고객 안내, 스마트홈 기기, 내비게이션, 가상 인플루언서 등 다양한 산업 분야에서도 폭넓게 활용될 수 있으며, 향후 더 많은 언어 지원, 감정 표현 조절 기능, 고음질 스튜디오급 합성 기능 등을 순차적으로 공개할 예정이라고 밝혔다.

크리에이블 (짤스튜디오) 남동우 대표는 “우리가 구현한 음성 AI는 단순한 기술을 넘어, 목소리 하나만으로 전 세계와 자연스럽게 소통하는 시대를 여는 기반이 될 것”이라며, “아직은 베타 버전이지만, 지속적인 기술 고도화와 투자를 통해 누구나 쉽고 자유롭게 목소리를 활용하는 미래를 열겠다”고 전했다.