샘 올트먼 오픈AI CEO는 제미나이3가 성능에서 우위를 보이자 출시 일정을 크게 앞당기는 초강수를 뒀다. 모델 업데이트 주기가 통상 수개월 단위였던 점을 고려하면 이례적인 속도전이다.
업계에선 GPT-5.2 시리즈가 제미나이3 시리즈를 실제로 능가했는지를 두고 의견이 분분하다.
전문가·레딧 등에선 코딩·소프트웨어 엔지니어링 분야는 GPT-5.2의 우위, 멀티모달(이미지·비디오·오디오) 처리·초장문 맥락 이해·순수 추론 성능에선 제미나이3가 우위를 지켰다고 봤다.
GPT-5.2는 이용자 목적에 따라 △즉답(Instant) △사고(Thinking) △프로(Pro) 등 3가지 모드로 구성됐다.
GPT-5.2는 코딩 영역에서의 성능 향상이 가장 두드러졌다. 국제 코딩 벤치마크인 SWE‑bench Verified(SWE 벤치) 검증에서 GPT-5.2 싱킹은 80.0%를 기록해 제미나이 3 프로(76.2%)를 넘어섰다. 더 복잡한 현실 프로그래밍 과제를 평가하는 SWE-벤치 프로에서도 55.6%로 전작 GPT-5.1의 50.8%를 4.8%포인트(p) 상회했다.
수학 분야에서도 GPT-5.2가 완벽한 성능을 보였다. AIME 2025(미국 수학경시) 벤치마크에서 GPT-5.2는 도구 없이 100% 정답률을 기록해 같은 조건에서 제미나이3 프로(95%)를 앞섰다.
문제해결 능력을 테스트하는 ARC-AGI-2(추상적 추론벤치마크)에서도 GPT-5.2 싱킹 52.9%·프로 54.2%를 기록해 제미나이3 딥싱킹의 45.1%를 추월했다. 이는 GPT-5.1 싱킹 17.6%에서 약 3배 향상된 수치다.
오픈AI는 응답 속도에 자신감을 드러냈다. GPT-5.2 싱킹은 GDPval(투자은행 금융모델링 작업 비용)에서 전문가 대비 11배 이상 빠른 속도, 1% 미만의 비용으로 결과를 생성(과거 지표 기준)했다고 발표했다.
제미나이3 시리즈는 △멀티모달 처리 △비디오 이해도 △초장문 맥락 이해도 등에서 우위를 유지한 것으로 나타났다.
제미나이3는 △텍스트 △이미지 △비디오 △오디오 네이티브 방식 아키텍처 처리에서 강점을 갖추고 있다. Video-MMMU 벤치마크에서 87.6%를, MMMU-Pro 종합 멀티모달 추론 테스트에서 81.0%를 각각 기록했다. GPT-5.2는 비교 데이터를 공개하지 않았다.
제미나이 3는 100만 토큰(약 200만 단어) 컨텍스트 윈도를 지원해 GPT-5.2(일반 27.2만 토큰) 수 배에 달한다. 이는 수백 페이지 규모의 △계약서 △논문 △프로젝트 전체 코드베이스를 한 번에 분석할 수 있다는 의미다.
순수 추론 능력도 제미나이3 프로·딥싱크가 앞선다. '인류의 마지막 시험'이라 불리는 HLE(Humanity's Last Exam)에서도 모델 자체 성능만으로 진행한 '도구 비활성' 평가에서 제미나이3 프로(37.5%)·딥싱크(41%)가 GPT-5.2 프로(34.5%)보다 우위를 보였다.
반면 웹 검색 등 외부 도구를 결합한 평가에서는 GPT-5.2 프로가 50%로 제미나이3 프로(45.8%)를 앞선 것으로 전해졌다. HLE 벤치마크는 웹 브라우징·파이썬 코드 실행 등 에이전트 기능 활용 시 점수가 대폭 상승하는 경향이 있다.
업계 관계자는 "오픈AI가 구글 제미나이와 경쟁에서 생태계 우위를 지키기 위해 기능 특화 방향으로 선회한 것으로 보인다"며 "GPT-5.2는 코딩, 에이전트 작업, 도구 연계가 필요한 실무 작업에, 제미나이 3는 멀티미디어 콘텐츠 분석, 초장문 문서 처리, 순수 추론이 필요한 학술·연구 업무에 적합하다"고 설명했다.
※ 저작권자 ⓒ 뉴스1코리아, 무단전재-재배포 금지