(서울=뉴스1) 김민석 기자 = 오픈AI가 출시한 '챗GPT-4o 이미지 제네레이션'이 폭발적 인기를 끌면서 어떤 원리로 이미지를 생성하는지 관심이 쏠린다.
샘 올트먼 오픈AI CEO는 27일(현지시간) X(옛 트위터)에서 "어느날 아침 일어나보니 이용자가 저를 지브리 스타일로 바꿨다는 메시지가 수백 개나 와 있었다"며 자신의 프로필 사진을 실제 사진에서 지브리 화풍의 이미지로 교체했다.
챗GPT-4o 이미지는 'GPT-4o' 기반 통합 이해·추론을 기반으로 다양한 이미지를 생성할 수 있다. 특히 △지브리 △심슨 △귀멸의칼날 △아기공룡 둘리 △슬램덩크 등 주요 애니메이션 화풍을 모방한 그림을 생성해 주목받고 있다.
실제 SNS에선 영화·드라마 장면을 만화 화풍으로 바꾼 이미지들이 급속도로 확산했다.
신세계를 연 기술 혁신은 이미지 생성 방식에 있다. 오픈AI에 따르면 기존 '달리3'(DALL-E3)는 '디퓨전'(Diffusion) 방식으로 이미지를 생성했지만. GPT-4o 이미지는 '자기회귀'(Auto Regressive) 방식을 채택했다.
자기회귀는 이미지를 한 번에 통째 생성하지 않고 왼쪽 위부터 오른쪽 아래로 차례로 그리는 방식이다. 사람이 그림을 그릴 때 전체를 한 번에 그리지 않고 한 부분씩 세심하게 작업하는 것과 유사하다. 텍스트를 한 글자씩 생성하는 언어모델 인공지능(AI) 작동 원리와도 비슷하다.
이를 통해 모델이 이미지 내 모든 요소를 정확하게 제어할 수 있다. 텍스트도 명확한 삽입이 가능하다.
이미지 생성 속도는 통합 모델 아키텍처를 채택해 높였다. 기존엔 텍스트·이미지·오디오 등 멀티모달 정보를 텍스트로 변환한 후 다시 처리해야했지만, GPT-4o는 텍스트·픽셀·사운드 데이터를 하나의 모델이 직접 처리하도록 처음부터 설계됐다.
학습 방식 역시 진일보했다. GPT-4o는 텍스트·이미지 등을 개별 학습하지 않고 '조합분포'(joint distribution) 방식으로 이미지와 언어, 이미지 간 관계 등을 통합적으로 학습한다. 이같은 원리로 '뉴턴의 프리즘 실험-빛의 스펙트럼' 다이어그램 등도 생성할 수 있다는 설명이다.
아울러 여러 객체의 모양·색상·위치 관계를 정확히 파악·유지하는 능력(속성 바인딩)도 발전했다.
가브리엘 고 오픈AI 멀티모달 담당 연구책임자는 "기존 모델은 항목이 5개만 넘어가도 특성을 섞어 그리는 한계를 보였지만, GPT-4o 이미지 모델은 속성 바인딩이 우수해 최대 15개 이상의 객체를 정확하게 생성할 수 있다"고 설명했다.
※ 저작권자 ⓒ 뉴스1코리아, 무단전재-재배포 금지