문화 문화일반

'사투리도 인식'…AI 한국어 학습자료 18억 어절 공개

뉴시스

입력 2020.08.25 13:59

수정 2020.08.25 13:59

[서울=뉴시스]국립국어원이 공개한 인공지능 학습용 한국어 자료 '모두의 말뭉치'. (사진 = 모두의 말뭉치 홈페이지 캡처) 2020.08.25.photo@newsis.com
[서울=뉴시스]국립국어원이 공개한 인공지능 학습용 한국어 자료 '모두의 말뭉치'. (사진 = 모두의 말뭉치 홈페이지 캡처) 2020.08.25.photo@newsis.com

[서울=뉴시스] 임종명 기자 = 인공지능(AI)의 한국어 처리 능력 향상에 필수적인 학습 자료 18억 어절 분량이 공개됐다.

국립국어원은 25일 한국어 분야의 빅데이터라 할 수 있는 '말뭉치'를 '모두의 말뭉치'에서 공개한다고 밝혔다.

챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말할 수 있으려면 다양한 한국어 말뭉치로 학습을 해야 한다.

이번에 공개한 한국어 말뭉치는 국어원이 2018년부터 인공지능 산업계와 관련 연구기관 등에서 공공재로 활용할 수 있도록 구축한 자료다. 저작권 문제까지 해결된 자료이며 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 활용할 수 있다.



문화체육관광부와 국립국어원은 1998년부터 2007년까지 '21세기 세종계획' 사업을 통해 약 2억 어절의 자료를 구축, 공개한 바 있다. 10여년이 지난 뒤 공개한 자료는 예전보다 9배가 많은 규모로 확장됐다.

특히 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중이 높아졌다. 최근 인공지능 스피커, 챗봇 등 대화형 서비스가 늘어난 추세를 반영한 것이다.

일상 대화 자료의 경우 표준어 위주의 자료 수집에서 더 나아가 지역별, 연령별 대화 자료를 수집해 지역별 방언(사투리)도 처리할 수 있도록 했다.

'모두의 말뭉치'에는 최근 10년 간의 신문 기사와 서적 2만188종, 일상생활에서의 음성 대화, 메신저 대화, 방송 자료, 대본 등이 포함됐다. 또 각종 인터넷 사이트의 블로그, 게시판 자료 210만건도 포함됐다.


국립국어원은 이번 자료 공개를 통해 인공지능 서비스를 개발하는 중소기업과 새싹기업 등이 따로 시간과 비용을 들이지 않고도 쉽게 기술 개발에 매진할 수 있고 대기업이나 연구 기관에도 대규모 기초 자원을 제공하게 됐다고 평가했다.

소강춘 국립국어원장은 "앞으로도 국어 전문 기관의 이점을 살려 날로 변화하는 언어를 신속하게 반영한 말뭉치와 고품질의 언어 자료를 지속적으로 구축, 공개할 계획"이라고 말했다.


한편 국립국어원은 이번 공개한 말뭉치의 의의와 활용을 주제로 한 온라인 전문가 토론회를 오는 10월 초 개최할 예정이다.

◎공감언론 뉴시스 jmstal01@newsis.com <저작권자ⓒ 공감언론 뉴시스통신사. 무단전재-재배포 금지.>