IT IT일반

AI 경쟁력 격차 여전...국내 AI 모델, 수능 수학 풀이 대부분 낙제

조윤주 기자

파이낸셜뉴스

입력 2025.12.15 09:49

수정 2025.12.15 09:48

구글 제미나이 이미지 생성 요청 /사진=뉴스1
구글 제미나이 이미지 생성 요청 /사진=뉴스1

[파이낸셜뉴스] 국내 대형언어모델(LLM) 모델들이 수학 수능 및 논술 문제 풀이에서 글로벌 빅테크에 비해 낮은 성능을 보인 것으로 나타났다.

김종락 서강대 수학과 교수 연구팀은 국내 '국가대표 AI' 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 한 결과 이같이 나타났다고 15일 밝혔다.

연구팀은 수능 문제에서 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를, 논술 문제는 국내 10개 대학 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제 등 총 50문제를 설정했다. 연구 대상인 된 모델은 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007' SK텔레콤의 'A.X 4.0(72B)' 엔씨소프트 경량모델 '라마 바르코 8B 인스트럭트'를 활용했다.

해외 모델에는 GPT-5.1, 제미나이3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이다.

오픈AI, 구글 등 글로벌 빅테크의 LLM 모델이다.

그 결과, 글로벌 모델은 76점에서 92점대의 점수를 기록했지만 한국 모델은 솔라 프로2가 58점 최고점으로 나머지 모델들은 20점대의 낮은 점수를 기록했다. 라마 바르코 8B 인스트럭트는 2점에 그쳤다.

연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이런 결과가 나왔다고 설명했다.

이같은 결과는 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스' 문제를 풀었을 때도 같았다. 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했는데, 글로벌 모델은 82.8~90점, 국내 모델은 7.1~53.3점였다.

3차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 만점, 나머지 해외 모델은 90점이 나왔지만 한국 모델은 솔라 프로-2가 70점, 엑사원이 60점 정도였다.

연구팀은 "주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다"며 "국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다"고 설명했다.

다만 연구팀은 이번에 쓰인 국내 5개 모델이 기존 공개 버전인 만큼, 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다는 계획이다.
이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS), 딥파운틴에서 공동 지원했다.

yjjoe@fnnews.com 조윤주 기자