IT 인터넷/SNS

네이버, 30분 녹음으로 완성하는 음성합성기술 공개

박소현 기자

파이낸셜뉴스

입력 2019.04.06 23:05

수정 2019.04.06 23:05

관련종목▶

네이버, 30분 녹음으로 완성하는 음성합성기술 공개

네이버가 30분 녹음만으로 완성하는 음성합성기술을 선보였다.

네이버가 지난 5일 국내외 인공지능(AI) 연구자를 대상으로 개최한 '네이버 AI 콜로키움 2019'에서 김성훈 네이버 클로바 리더는 이 같은 음성합성기술을 '클로바 AI 함께해요' 세션에서 선보였다.

김 리더는 발표 앞부분을 약 40분, 500문장을 녹음한 합성음을 립싱크하는 방식으로 진행했다. 하지만 이를 눈치챈 사람이 없을 정도로 어색함이 없었던 것으로 알려졌다.

앞서 네이버는 지난해 배우 유인나씨 목소리를 4시간 녹음해 자연스럽게 구현하는 자체 음성합성 기술로 업계의 관심을 모았다. 같은해 11월에는 클로바를 통한 모든 음성 답변을 유인나씨 목소리로 들을 수 있도록 하는 기능을 추가했다.


네이버는 더 자연스러운 음성합성을 위해 목소리에 다양한 톤을 입히는 기술도 연구하고 있다.

네이버는 또 ‘입술 읽기’를 통해 음성을 인식할 수 있는 기술도 공개했다. 입술 읽기는 입술 움직임을 보고 소리를 추적하는 립리딩 음성인식 기술이다. 여러 명이 말하거나 주변이 시끄러운 상황에서도 무리 없이 음성인식이 가능해진다.

기존 이미지 검색과 OCR기술에서 한 단계 나아가 연속된 동작을 인식하는 포즈 인식, 장면 인식 기술도 소개했다. 아이돌 영상 속 춤추는 움직임을 인식해 나의 춤과 비교해 점수를 자동 계산하거나 드라마 속 주인공 얼굴이나 움직임을 인식해 식사하는 장면, 키스하는 장면 등을 구별해내는 기술이다.

김 리더는 음성과 동작에서 인식한 정보를 이해하는데 필요한 네이버의 언어처리 기술도 공개했다.

네이버가 자체 구축한 인공지능 언어모델인 LarVa(LanguageRepresentations by Clova)가 구글 언어모델과 비교해 우수한 성능을 보이고 있다는 것이다.

김 리더는 "음성 인식과 언어 기술을 결합해 클로바가 더 사람에 가깝고 일상에 도움이 되는 어시스턴트로 거듭날 수 있다"고 강조했다.


네이버는 앞으로도 이 같은 AI기술 개발에 있어 학계·산업계와 협력과 공유를 꾸준히 늘릴 예정이다.

gogosing@fnnews.com 박소현 기자

fnSurvey