네이버 이어 SK텔레콤도 개발 뛰어든 한국어판 'GPT-3'가 뭐길래

(서울=뉴스1) 송화연 기자 = 네이버, SK텔레콤 등 국내 IT 기업이 차세대 인공지능(AI) 언어모델 개발을 위해 팔을 걷어붙였다. 이들의 목표는 AI 기반 '한국어' 범용언어모델(GLM) 개발이다.

SK텔레콤은 지난 7일 국립국어원과 한국어에 적합한 차세대 AI 언어 모델을 개발하는 업무협약을 체결했다고 발표했다. 양사는 기존 자연어처리 AI 중 최고로 꼽히는 'GPT-3'(Generative Pre–Training-3)과 비슷한 성능의 한국어 GLM을 구축한다는 계획이다.

GPT-3은 코딩, 글짓기, 번역 등 다양한 기능을 가진 AI 언어모델로, 일론 머스크 테슬라 창업자 등이 설립한 AI 연구기관 '오픈AI'가 지난해 5월 발표했다.

GPT-3은 기존 GPT–2의 개량 모델로 방대한 양의 데이터셋(3000억 개의 토큰)과 매개변수(1750억 개)를 갖춘 자연어 모델 기반의 딥러닝 시스템이다.

GPT–3은 기존 AI와 달리 상당히 많은 분야의 질문에 답할 수 있다. 단일 문장이 아니라 대화의 문맥을 파악하고 창의적인 답변을 내놓는 수준에 도달했고 인간이 작성한 뉴스 기사와 구분하기 어려운 수준의 기사를 작성할 수도 있다.

GPT-3은 자연스러운 언어 표현이 가능해 일상의 감성 대화, 고객센터 대화뿐 아니라 시사, 문학, 역사, 게임 콘텐츠 등 다양한 영역의 언어 활동에 적용할 수 있다. GPT–3과 대화를 나눠보면 GPT–3은 인류의 어리석음과 사랑에 대해 얘기하고 거짓말도 한다.

이처럼 특정 작업만 수행할 수 있던 AI 수준이 기술의 발전과 함께 다양한 업무 수행이 가능해지고 인간과 흡사한 지적 판단이 가능해지면서 GPT-3과 같은 딥러닝 시스템의 중요성도 대두되고 있다.

AI 연구에 열을 올리고 있는 네이버도 지난해 하반기부터 자체적으로 한국어, 일본어 GPT-3 개발에 돌입했다. 회사는 초대규모 AI 학습을 위해 대용량 데이터를 처리 및 학습하는 데 필수적인 슈퍼컴퓨팅 인프라를 이미 확보한 상태다. 개발 업계는 네이버가 방대한 한글 데이터와 자체 기술력을 바탕으로 글로벌 최고 수준의 초대규모 한국어 GPT-3을 조만간 내놓을 것으로 관측하고 있다.

이처럼 국내 IT 기업의 잇따른 토종 'GPT-3' 개발은, 영어를 기반으로 한 기존 AI 환경에서 한국어 AI 중심의 연구개발 생태계가 생겨난다는 점에서 큰 의미가 있다.

국내 개발 업계 관계자는 "현재 GPT-3에 이용된 데이터 자체가 92% 이상 영어를 기반으로 이뤄져 있는데 이는 AI 기술 종속성과 관련되어 중장기적으로 문제가 될 수 있는 부분"이라며 "이러한 상황에서 한국어 중심의 GPT-3이 개발된다는 것은 그만큼 국내 시장에 최적화된 AI가 나올 기회가 더 많아진다는 의미다.

국내 기술 기업들의 활발한 투자가 더욱 필요해질 것"이라고 말했다.