"진짜 야구 관중석 중계화면 아니야?"...붙붙은 AI 이미지 성능경쟁

기자가 '챗GPT 이미지 2.0'(위)과 '제미나이 나노 바나나2'(아래)에 "야구 중계 화면에서 관객석의 젊은 커플이 포착된 현실적인 장면"이라는 동일한 프롬프트를 입력한 결과로 생성된 이미지. 사진=주원규 기자

[파이낸셜뉴스] 글로벌 빅테크 간 생성형 인공지능(AI) 성능 경쟁이 이미지 생성 영역에서도 이어지고 있다. 모델이 점차 발전하면서 이미지 결과물의 사실성과 편의성을 둘러싼 미세한 성능 차이가 시장 평가를 가르는 변수로 부상하는 분위기다.

5일 정보기술(IT)업계에 따르면 오픈AI가 최근 선보인 '챗GPT 이미지 2.0'은 곧바로 산업 현장에서 활용 가능할 정도로 뛰어난 성능으로 평가받고 있다. 경쟁 모델인 구글 '나노바나나 2'와 비교해도 실제 촬영 이미지에 가까운 결과물을 구현한다는 반응이 적지 않다. 지난해 말 구글의 생성형 AI 제미나이에 탑재된 이미지 생성·편집 모델인 '나노 바나나'가 챗GPT 이미지 모델에 비해 압도적인 성능을 보인다는 평가와 정반대가 된 셈이다.

실제 두 AI 이미지 모델을 대상으로 동일한 프롬프트(명령어)를 입력해 성능을 교차 검증해 본 결과, 세부 사항 구현력과 실사화 수준에서 유의미한 격차가 나타났다. 먼저 "야구 중계 화면에서 관객석의 젊은 커플이 포착된 현실적인 장면"과 같은 프롬프트를 입력할 경우 오픈AI 모델은 실제 카메라 앵글이나 조명·화면 노이즈·묘사 등 방송 화면 특유의 요소를 정교하게 재현하는 반면에 나노 바나나의 결과물은 어색하게 느껴졌다.

복합적인 지시에서도 유사한 결과가 확인됐다. 기자는 "우주복을 입은 갈색 토끼가 네온사인이 빛나는 사이버펑크 도시의 젖은 거리에 앉아 라멘을 먹는 모습. 토끼 옆에는 '서울 7578대구'라고 적힌 작은 네온 표지판, 배경에는 아웃포커싱 처리된 비행 자동차"라는 구체적이고 난해한 프롬프트를 입력했다. 양 모델 모두 결과물에 이용자의 요구가 모두 반영됐으나, 챗GPT 이미지 2.0 모델이 토끼의 묘사나 심도 표현·색감 일관성 등 구체적인 부분에서 상대적으로 완성도가 높았다. 특히 전 모델에서 한글 등 비라틴 계열 언어의 텍스트 렌더링이 정확하지 않았던 것에 비해 크게 정확도가 개선됐다.

기자가 '챗GPT 이미지 2.0'(위)과 '제미나이 나노 바나나2'(아래)에 "우주복을 입은 갈색 토끼가 네온사인이 빛나는 사이버펑크 도시의 젖은 거리에 앉아 라멘을 먹는 모습. 토끼 옆에는 '서울 7578대구'라고 적힌 작은 네온 표지판, 배경에는 아웃포커싱 처리된 비행 자동차"라는 동일한 프로프트를 입력한 결과로 생성된 이미지. 사진=주원규 기자

결과물 생성 이후의 사용자 편의성(UI·UX) 측면에서도 챗GPT가 더 뛰어났다. 생성된 사진을 클릭한 뒤 자연어로 원하는 수정 사항을 입력하면 즉각적으로 편집이 이뤄지는 직관적인 기능을 갖췄다. 복잡한 그래픽 도구를 다루지 못하는 일반 사용자도 손쉽게 정교한 이미지를 가공할 수 있어 실용성이 크게 높아졌다는 평가가 나온다.

앞서 오픈AI는 출시 첫 주인 지난달 26일 기준 챗GPT 이미지 2.0 일일활성이용자(DAU) 수가 전주 대비 60% 이상 늘고 신규 이용자 유입은 130% 이상 급증했다고 밝힌 바 있다.

또 오픈AI가 한국 이용자들의 이미지 사례를 분석한 결과 기존 사진을 기반을 스타일과 콘셉트를 바꾸는 변환용 활용이 주를 이룬 것으로 나타나면서 실제 업무 현장에서도 널리 쓰이고 있는 것으로 추정된다.

한편, 생성형 AI가 실제 업무에 유의미하게 사용되기 시작하면서 모델들의 성능이 점차 정교해지고 비약적으로 발전하는 모습이다.

올 들어 업무 영역에서 앤스로픽의 '오퍼스4.7' 모델이 코딩과 업무 활용 등에서 압도적인 성능을 보이자 최근 오픈AI는 이를 뛰어 넘는 '챗GPT 5.5'를 내놓으면서 양강 구도가 형성됐고, 구글 제미나이도 새로운 모델을 준비하고 있는 것으로 알려졌다.

wongood@fnnews.com 주원규 기자