업스테이지 '솔라 오픈' 딥시크보다 언어능력 월등

파이낸셜뉴스       2026.01.06 18:20   수정 : 2026.01.06 18:20기사원문
자체개발 LLM 허깅페이스 공개
한국어 등 3개 국어 성능 더 높아
20조 토큰 규모 고품질 사전학습

업스테이지가 자체 개발 거대언어모델(LLM) '솔라 오픈 100B'를 글로벌 오픈소스 플랫폼 '허깅페이스'에 전면 공개했다고 6일 밝혔다.

'솔라 오픈'은 업스테이지가 주관사로 참여 중인 과학기술정보통신부의 '독자 AI 파운데이션 모델 프로젝트'의 첫 번째 결과물이다. 데이터 구축부터 학습에 이르는 과정 전반을 자체 기술(프롬 스크래치)로 개발했다.

업스테이지는 이날 개발 과정과 기술적 세부 내용을 담은 테크 리포트도 함께 발표했다. 솔라 오픈은 중국 대표 AI 모델인 '딥시크'보다 규모는 작으면서도 성능은 월등하다. 사이즈는 '딥시크 R1'의 15%에 불과하지만 한국어(110%), 영어(103%), 일본어(106%) 등 3개 국어 주요 벤치마크 평가에서 딥시크 성능을 넘어섰다. 한국어 능력은 단연 압도적이다. 한국 문화 이해도(Hae-Rae v1.1), 한국어 지식(CLIcK) 등 주요 한국어 벤치마크 결과 딥시크 R1 대비 2배 이상의 성능 격차를 보였고, 오픈AI의 유사 규모 모델인 'GPT-OSS-120B-Medium'과 비교해서도 100% 앞선 성능을 기록했다. 수학, 복합 지시 수행, 에이전트 등 고차원적 지식 영역에서도 딥시크 R1과 대등한 성능을 확보했다. 오픈AI GPT-OSS-120B-Medium과 비교해서도 종합 지식과 코드 작성 능력 등에서 대등한 경쟁력을 보였다.

약 20조 토큰 규모의 고품질 사전학습 데이터셋을 반영한 결과다. 향후 업스테이지는 데이터셋 일부를 한국지능정보사회진흥원(NIA)의 'AI 허브'를 통해 개방해, 국내 AI 연구 생태계 활성화를 위한 공공재로 환원한다. 기업 경쟁력의 핵심 자산인 원천 데이터를 공개하는 것은 업계에서도 매우 이례적이라는 평가다.

솔라 오픈은 '전문가 혼합(MoE)' 구조를 통해 실제 연산에는 120억 개 매개변수만 활성화하는 방식으로 효율을 극대화했다.
초당 토큰 처리량(TPS)을 약 80% 향상시키고, 학습 기간도 50% 단축해 약 120억 원에 달하는 GPU 인프라 비용 절감 효과를 거뒀다. 솔라 오픈은 미국 비영리 연구기관 에포크AI가 발표하고 스탠퍼드대 HAI(인간중심 AI 연구소) 보고서에 활용되는 '주목할 만한 AI 모델' 리스트에 이름을 올리며, 한국이 글로벌 AI 3강으로 도약할 기술적 교두보를 마련했다는 평이다.

업스테이지는 컨소시엄 정예팀으로 참여중인 노타, 래블업, 플리토, 한국과학기술원(KAIST), 서강대 등과 기술력을 결집했으며, 향후 'AI로 여는 일의 표준'을 목표로 산업별 특화 서비스 개발에 박차를 가한다.

yjjoe@fnnews.com 조윤주 기자

Hot 포토

많이 본 뉴스