오픈AI는 구글이 최근 출시한 '제미나이 3'에 위기감을 느끼고 GPT-5.2 출시 일정을 약 2~3주 앞당겼다.
오픈AI는 11일(현지시간) 전문 지식 업무 수행 능력을 강화한 최신 모델 GPT-5.2 시리즈를 공개했다.
GPT-5.2는 이용자 목적에 따라 △즉답(Instant) △사고(Thinking) △프로(Pro) 등 3가지 모드로 구성됐다. 즉답 모드는 일상적 대화와 학습, 사고 모드는 코딩·수학 문제 해결·긴 문서 요약 등 복잡한 지식 작업에 적합하다.
오픈AI는 새로운 모델이 다양한 전문 분야에서 인간 전문가 수준을 달성했다고 강조했다.
산업 현장 44개 직종의 업무 수행 능력을 평가하는 GDPval 테스트에서 GPT-5.2 사고 모드는 70.9%, 프로 모드는 74.1%를 기록했다. 이는 전작 'GPT-5.1 사고모드'(38.8%) 대비 2배 가까운 향상이다.
소프트웨어 엔지니어링 분야 성능이 강화됐다. 국제 벤치마크인 SWE‑bench Verified(SWE 테스트) 공식 리더보드 기준 GPT-5.2 사고모드가 80%를 기록하며 구글 제미나이 3 프로(76.2%)와 전작 GPT-5.1 사고모드(76.3%)을 넘어섰다. 코딩에 강한 '클로드 오퍼스4.5'(80.9%)와도 대등한 수준이다.
'인류 마지막 시험'이라 불리는 HLE(Humanity's Last Exam)에선 모델 자체 성능만으로 진행한 '도구 비활성' 평가에서는 GPT-5.2 프로가 34.5%를 기록해 제미나이3 프로(37.5%)·제미나이3 딥싱크(41%)보다 낮았다.
반면 웹 검색 등 외부 도구를 결합한 평가에서는 50%로 제미나이3 프로(45.8%)를 앞선 것으로 전해졌다. HLE 벤치마크는 웹 브라우징·파이썬 코드 실행 등 에이전트 기능 활용 시 점수가 대폭 상승하는 경향이 있다.
신뢰성과 환각 현상도 개선됐다. 오픈AI 내부 데이터에 따르면 사고 모드의 오류율은 6.2%로 이전 버전(8.8%) 대비 약 30% 감소했다. 문서 내 맥락 추적, 그래프·이미지 해석, 다단계 작업 처리 능력 등에서도 전반적으로 향상됐다.
GPT-5.2는 유료 요금제 구독자를 대상으로 순차 적용된다. 개발자도 API를 통해 활용할 수 있다. 오픈AI는 이전 버전인 GPT-5.1을 약 3개월간 병행 운영할 예정이다.
업계는 오픈AI가 이례적으로 한 달 만에 새 모델을 발표한 건 구글 제미나이 3 프로·딥싱크의 성능 역전에 대응한 조치로 분석하고 있다.
※ 저작권자 ⓒ 뉴스1코리아, 무단전재-재배포 금지