"상호 작용하는 휴머노이드 만들기 위해서는 멀티모달 AI 필수"

뉴스1       2025.07.10 10:48   수정 : 2025.07.10 10:48기사원문

김병학 카카오 카나나 성과리더가 10일 오전 서울 여의도 한국거래소 컨퍼런스홀에서 'AI 휴머노이드, 인간과 기계의 공존 시대'를 주제로 열린 2025 뉴스1 테크포럼(NTF)에서 '휴머노이드 시대를 여는 AI 에이전트. 그리고 LLM의 진화'를 주제로 기조연설을 하고 있다. 2025.7.10/뉴스1 ⓒ News1 박정호 기자


김병학 카카오 카나나 성과리더가 10일 오전 서울 여의도 한국거래소 컨퍼런스홀에서 'AI 휴머노이드, 인간과 기계의 공존 시대'를 주제로 열린 2025 뉴스1 테크포럼(NTF)에서 '휴머노이드 시대를 여는 AI 에이전트. 그리고 LLM의 진화'를 주제로 기조연설을 하고 있다. 2025.7.10/뉴스1 ⓒ News1 박정호 기자


(서울=뉴스1) 김민재 기자 = 김병학 카카오(035720) 카나나 성과리더가 "상호 작용하는 휴머노이드를 만들기 위해서는 멀티모달 인공지능(AI)을 탑재해야 한다"고 말했다.

김 리더는 10일 서울 영등포구 한국거래소 콘퍼런스홀에서 열린 '2025 뉴스1 테크포럼(NTF 2025)'에서 '휴머노이드 시대를 여는 AI 에이전트 그리고 거대언어모델(LLM)의 진화'를 주제로 기조연설을 했다.

김 리더는 "휴머노이드 시대에는 로봇과 에이전트 간의 결합이 가장 중요한 방향성"이라며 "결국에는 로봇이 사용자의 목표를 달성하기 위해 움직이는 에이전트를 활용해 문제를 해결하는 구조가 될 것"이라고 말했다.

그는 "LLM이 발전하면서 음성 인식이나 시각적 요소로 로봇을 조작하는 시스템이 구축됐다"고 했다.

그러면서 "음성이나 텍스트, 시각적 자극, 영상 등 여러 자극을 한 번에 처리하기 위해서는 향후 휴머노이드에 멀티모달 AI를 넣어야 하지 않을까 생각한다"고 부연했다.

김 리더는 멀티모달 AI의 예시로 카나나-O를 소개했다.

그는 "(카나나는) 텍스트뿐만 아니라 이미지나 음성, 영상 등을 투입해 문자와 음성으로 출력하고 있다"면서 제주도 방언을 표준어로 바꾸어 출력하는 기능을 시연했다.

김 리더는 "궁극적으로는 영상과 문자를 같이 학습해서, 정보를 일일이 주입하지 않아도 자율적으로 지식을 습득할 수 있는 모델을 만들고자 한다"고 말했다.


이어 "카나나는 한국어뿐만 아니라 한국 문화 등 사회적 맥락도 표현하는 역할을 해야 한다고 생각한다"고 덧붙였다.

김 리더는 마지막으로 "이러한 기술을 휴머노이드에 적용한다면 훨씬 더 상호작용을 잘하는, AI 적인 로봇을 만들 수 있다고 생각한다"고 말했다.

한편, 이날 포럼은 'AI 휴머노이드, 인간과 기계의 공존 시대'를 주제로 진행됐다.

Hot 포토

많이 본 뉴스