"방언도 알아듣는 한국어 특화 멀티모달 모델"...카카오, '카나나-o' 성능 공개

주원규 기자

파이낸셜뉴스

입력 2025.05.01 13:06

수정 2025.05.01 14:48

카카오 제공.

[파이낸셜뉴스] 카카오가 통합 멀티모달 언어모델 '카나나(Kanana)-o'와 오디오 언어모델 '카나나-a' 성능 및 개발 후기를 테크 블로그를 통해 공개했다고 1일 밝혔다.

카나나-o는 국내 최초로 텍스트, 음성, 이미지 등 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델이다.

이용자는 텍스트·음성·이미지 중 어떠한 조합으로 질문을 입력하더라도 카나나-o를 통해 처리할 수 있고, 상황에 맞는 텍스트나 자연스러운 음성 입력에도 응답을 생성해낼 수 있다.

카카오는 서로 다른 모델을 합치는 모델 병합 기술을 기반으로 이미지 처리에 특화된 카나나-v와 오디오 이해·생성에 특화된 카나나-a 모델을 통합해 단기간 내에 효율적으로 카나나-o를 개발했다.

특히 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조와 억양, 어미변화 등을 정밀하게 반영했다.

이에 따라 카나나-o는 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다.

카카오에 따르면 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했고 한국어 벤치마크에서는 높은 우위를 보였다.

감정 인식 능력에서는 한국어와 영어 모두에서 큰 우위를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다.

카카오는 향후 카나나-o를 통해 △다중 턴(Multi-turn) 대화 처리 △양방향 데이터 동시 송수신 기술(Full-duplex) 대응 능력 강화 △부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다.

김병학 카카오 카나나 성과 리더는 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

wongood@fnnews.com 주원규 기자