IT 정보통신

코난테크놀로지, '코난 LLM' 공개.. "토큰 규모 국내 최대"

구자윤 기자

파이낸셜뉴스

입력 2023.08.17 13:53

수정 2023.08.17 14:23

임완택 전략기획본부장(상무)이 17일 콘래드 서울에서 ‘코난테크놀로지, 온프레미스 LLM 시대를 열다’라는 주제로 코난 LLM을 소개하고 있다. 사진=구자윤 기자
임완택 전략기획본부장(상무)이 17일 콘래드 서울에서 ‘코난테크놀로지, 온프레미스 LLM 시대를 열다’라는 주제로 코난 LLM을 소개하고 있다. 사진=구자윤 기자

“25년여간 인공지능 연구를 하면서 몇 번의 겨울을 감내해왔고 생성형 AI에 선도적으로 대응하고자 LLM 개발에 매진해왔다. 코난LLM이란 이름으로 그 결실을 공개하게 됐다” (김영섬 코난테크놀로지 대표)

코난테크놀로지가 17일 오전 콘래드 서울에서 기자간담회를 갖고 자체개발 대규모 언어모델 ‘코난 LLM’을 최초 공개했다.

코난 LLM은 한국어 특성에 기반한 구조로 답변 신뢰도를 높이면서 보안 우려와 고객 비용 부담은 덜은 B2B·B2G향 LLM이다. 이번에 선보인 코난 LLM은 전체 토큰 4920억개, 한국어 토큰 2840억개를 학습했다.
토큰은 LLM이 인식하는 문자 데이터 단위다. 11월에 내놓을 모델에는 전체 학습 토큰이 7000억개, 한국어 토큰은 3220억개가 쓰인다.

사진=구자윤 기자
사진=구자윤 기자

코난 LLM의 토큰 규모는 국내 최대 수준으로, 전체 토큰은 오픈소스 기반의 LLAMA2보다 한국어를 270배 많이 학습했다는 것이 코난테크놀로지 측 설명이다. 회사는 2007년부터 국내외 데이터를 실시간 수집·분석해온 온라인 미디어 심화 분석 서비스 ‘펄스케이’를 통해 약 250억개 문서를 자체 확보하고 이 중 단문을 제외한 20억건을 학습에 사용했다.

김 대표의 인사말로 시작된 기자간담회에서 임완택 전략기획본부장(상무)은 ‘코난테크놀로지, 온프레미스 LLM 시대를 열다’라는 주제로 △국내 생성형 AI 시장 개요 △생성형 AI 시장 참여자 분류 등에 대해 개괄적으로 짚은 뒤 △코난 LLM 특장점 및 비즈니스 모델을 소개했다.

임 상무는 “코난 LLM은 기업 전용 LLM을 온프레미스(자체 구축형)로 제공해 회사 기밀이 외부로 유출되거나 LLM 학습에 회사 데이터가 사용되는 것을 원천적으로 방지할 수 있다”며 “또한 벡터 검색 엔진 구동으로 잘못된 정보를 내놓는 할루시네이션을 줄인다”고 설명했다.

사진=구자윤 기자
사진=구자윤 기자

이어 도원철 상무가 코난 LLM을 시연했다. 실제 코난 LLM은 문서 초안 생성, 문서 요약, 질의응답을 지원했다. 간단한 프롬프트만으로 4000자 분량의 문서를 만들어내고 문서 생성 중 추가적인 질의, 첨삭 및 참고자료 생성도 동시에 수행했다.
도 상무가 ‘시도 교육청 평가 방법 등 설명하는 계획서를 작성해주세요’ ‘학교 및 가정에서의 폭염 대비 방법’ 등을 입력하자 순식간에 수천자에 달하는 답변을 쏟아냈다. 일부 부분에 대한 구체화를 요청하자 좀 더 구체적인 내용을 선보였다.


임 상무는 “대기업이나 공공기관들이 생성형 AI와 관련된 예산 작업을 하고 있는데, 내년에 실제 (생성형 AI를) 도입하는 과정일 것이기에 내년부터 (코난LLM과 관련된) 매출이 꽤 나올 것으로 예상된다”고 전망했다.

solidkjy@fnnews.com 구자윤 기자

fnSurvey