IT 컴퓨팅

카카오브레인 ‘AI 이미지 생성모델’ 깃허브에 공개

김미희 기자

파이낸셜뉴스

입력 2022.04.19 18:25

수정 2022.04.19 18:25

관련종목▶

카카오브레인의 이미지생성모델 RQ-트랜스포머는 처음 보는 텍스트 조합을 이해하고 이에 대응한 이미지를 만들 수 있다. 사진은 '사막에 있는 에펠탑'이란 텍스트 조건에 의해 만들어진 샘플 이미지 카카오브레인 제공
카카오브레인의 이미지생성모델 RQ-트랜스포머는 처음 보는 텍스트 조합을 이해하고 이에 대응한 이미지를 만들 수 있다. 사진은 '사막에 있는 에펠탑'이란 텍스트 조건에 의해 만들어진 샘플 이미지 카카오브레인 제공
카카오브레인은 지난해 12월 공개한 초거대 멀티모달(multimodal) 인공지능 '민달리(minDALL-E)' 업그레이드 버전인 이미지 생성모델 'RQ-트랜스포머(Transformer)'를 최대 오픈소스 커뮤니티 '깃허브(GitHub)'에 공개했다고 19일 밝혔다.

39억개 매개변수(파라미터)로 구성된 RQ-트랜스포머는 3000만쌍의 텍스트 및 이미지를 학습한 인공지능 모델이다. 계산 비용을 줄이고 이미지 생성 속도를 높인 동시에 이미지의 품질을 크게 향상시킨 모델이다.

카카오브레인 독자 기술로 개발된 RQ-트랜스포머는 민달리 대비 모델 크기는 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 늘렸다.


고해상도 이미지를 2차원 코드맵으로 표현하는 기존 기술과 달리 RQ-트랜스포머는 3차원 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습된 이미지 생성 모델이다. 기존 기술과 비교했을 때 이미지 압축으로 인한 손실이 적어 높은 품질 이미지를 저해상도의 코드맵으로 표현하는 것이 특징이다.


카카오브레인은 인간이 자유롭게 떠올리는 아이디어를 컴퓨터 프로그램을 통해 디지털 이미지로 실현시킬 수 있도록 기술 역량을 쌓아갈 예정이다.

elikim@fnnews.com 김미희 기자

fnSurvey