오픈AI 'GPT-5.2' 출시…"제미나이3에 일부우위, 전문가 수준"

뉴스1       2025.12.12 08:55   수정 : 2025.12.12 10:51기사원문

(서울=뉴스1) 김민석 기자 = 챗GPT 개발사 오픈AI가 GPT-5.1 출시 한 달만 GPT-5.2 버전을 선보였다.

오픈AI는 구글이 최근 출시한 '제미나이 3'에 위기감을 느끼고 GPT-5.2 출시 일정을 약 2~3주 앞당겼다.

오픈AI는 11일(현지시간) 전문 지식 업무 수행 능력을 강화한 최신 모델 GPT-5.2 시리즈를 공개했다.

GPT-5.2는 이용자 목적에 따라 △즉답(Instant) △사고(Thinking) △프로(Pro) 등 3가지 모드로 구성됐다. 즉답 모드는 일상적 대화와 학습, 사고 모드는 코딩·수학 문제 해결·긴 문서 요약 등 복잡한 지식 작업에 적합하다. 프로 모드는 장시간 연산이나 심층적 추론이 필요한 고난도 업무를 지원한다.

오픈AI는 새로운 모델이 다양한 전문 분야에서 인간 전문가 수준을 달성했다고 강조했다.

산업 현장 44개 직종의 업무 수행 능력을 평가하는 GDPval 테스트에서 GPT-5.2 사고 모드는 70.9%, 프로 모드는 74.1%를 기록했다. 이는 전작 'GPT-5.1 사고모드'(38.8%) 대비 2배 가까운 향상이다.

소프트웨어 엔지니어링 분야 성능이 강화됐다. 국제 벤치마크인 SWE‑bench Verified(SWE 테스트) 공식 리더보드 기준 GPT-5.2 사고모드가 80%를 기록하며 구글 제미나이 3 프로(76.2%)와 전작 GPT-5.1 사고모드(76.3%)을 넘어섰다. 코딩에 강한 '클로드 오퍼스4.5'(80.9%)와도 대등한 수준이다.

'인류 마지막 시험'이라 불리는 HLE(Humanity's Last Exam)에선 모델 자체 성능만으로 진행한 '도구 비활성' 평가에서는 GPT-5.2 프로가 34.5%를 기록해 제미나이3 프로(37.5%)·제미나이3 딥싱크(41%)보다 낮았다.

반면 웹 검색 등 외부 도구를 결합한 평가에서는 50%로 제미나이3 프로(45.8%)를 앞선 것으로 전해졌다. HLE 벤치마크는 웹 브라우징·파이썬 코드 실행 등 에이전트 기능 활용 시 점수가 대폭 상승하는 경향이 있다.

신뢰성과 환각 현상도 개선됐다. 오픈AI 내부 데이터에 따르면 사고 모드의 오류율은 6.2%로 이전 버전(8.8%) 대비 약 30% 감소했다. 문서 내 맥락 추적, 그래프·이미지 해석, 다단계 작업 처리 능력 등에서도 전반적으로 향상됐다.

GPT-5.2는 유료 요금제 구독자를 대상으로 순차 적용된다.
개발자도 API를 통해 활용할 수 있다. 오픈AI는 이전 버전인 GPT-5.1을 약 3개월간 병행 운영할 예정이다.

업계는 오픈AI가 이례적으로 한 달 만에 새 모델을 발표한 건 구글 제미나이 3 프로·딥싱크의 성능 역전에 대응한 조치로 분석하고 있다.

Hot 포토

많이 본 뉴스