IT 정보통신

카카오, 경량 멀티모달 모델 오픈소스 공개…"GPT-4o 견줄 수준"

뉴스1

입력 2025.07.24 10:38

수정 2025.07.24 10:38

(카카오 제공)
(카카오 제공)


(카카오 제공)
(카카오 제공)


(카카오 제공)
(카카오 제공)


(카카오 제공)
(카카오 제공)


(서울=뉴스1) 신은빈 기자 = 카카오(035720)가 경량 멀티모달 언어모델과 전문가 혼합(MoE) 모델을 국내 최초 오픈소스로 공개했다.

카카오는 허깅페이스를 통해 이미지 정보 이해·지시 이행 능력을 갖춘 경량 멀티모달 언어모델 '카나나-1.5-v-3b'(Kanana-1.5-v-3b)와 MoE 언어모델 '카나나-1.5-15.7b-a3b'(Kanana-1.5-15.7b-a3b)를 오픈소스로 24일 공개했다.

이번 오픈소스 공개는 5월 공개한 언어모델 '카나나-1.5'(Kanana-1.5) 4종에 이어 두 달 만이다.

카카오는 정부가 추진하는 '독자 인공지능(AI) 파운데이션 모델 프로젝트'에 참여한 상태다. 이번 같은 자체 모델 개발 역량과 카카오톡 등 대규모 서비스 운영 경험을 바탕으로 전 국민의 AI 접근성을 높이겠다는 방침이다.



'Kanana-1.5-v-3b'는 텍스트와 이미지 정보를 모두 처리할 수 있는 멀티모달 언어모델이다. 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력을 갖췄다.

카카오는 이 모델이 경량 모델임에도 이미지로 표현된 한국어·영어 문서 이해 능력이 글로벌 멀티모달 언어모델 'GPT-4o'와 견줄 수 있을 정도라고 설명했다.

한국어 벤치마크에서는 유사한 규모의 국내외 공개 모델과 비교했을 때 최고점을 기록했고, 다양한 영어 벤치마크에서도 해외 오픈소스 모델과 유사한 수준의 성능을 보였다. 지시 이행 능력 벤치마크에서는 국내 공개된 유사한 규모의 멀티모달 언어모델 대비 128% 뛰어난 성능을 기록했다.

카카오는 '인간 선호 반영 학습'과 '지식 증류'를 통해 모델의 성능을 극대화했다. 지식 증류는 고성능 대형 모델로부터 작은 모델을 학습하는 방식으로, 대형 모델의 예측 확률 분포를 학습에 반영해 작은 모델이 정교한 예측 능력을 갖추도록 돕는 기술이다.

'Kanana-1.5-v-3b'는 △이미지·글자 인식 △동화·시 창작 △국내 문화유산·관광지 인식 △도표 이해 △수학 문제 풀이 등 여러 분야에서 활용할 수 있다.

예를 들어 장소 사진과 함께 "사진을 촬영한 장소를 설명해 줘"라고 질문하면 "서울 청계천을 배경으로 한 사진입니다"처럼 국내 지역을 정교하게 인식한 답변을 제공한다.

'Kanana-1.5-v-3b'는 Kanana-1.5 모델을 기반으로 한다. Kanana-1.5는 모델 개발 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 '프롬 스크래치'(From Scratch) 방식으로 개발됐다.

이날 함께 오픈소스로 공개한 MoE 구조의 언어모델 'Kanana-1.5-15.7b-a3b'는 '업사이클링' 방식을 적용해 모델 학습 시간과 비용을 줄였다. 기존의 다층 신경망 레이어를 복제해 여러 전문가 레이어로 변환하는 방식을 차용해 개발 과정을 효율화했다.


또 MoE 구조로 비용은 절감하고 인프라 성능은 고도화했다. 이 방식은 입력 데이터를 처리할 때 모든 파라미터가 연산에 참여하는 기존 모델과 달리 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식이다.


김병학 카카오 카나나 성과리더는 "이번 오픈소스 공개는 비용 효율성과 성능이란 유의미한 개발 성과"라고 말했다.