의학·과학 과학

AI가 문서파일 검색해 정답 알려준다

김만기 기자

파이낸셜뉴스

입력 2021.09.07 13:31

수정 2021.09.07 13:31

ETRI, AI·딥러닝 기술 적용한 API 개발
질문하면 파일 검색해 답하고 문서 찾아줘
AI가 문서파일 검색해 정답 알려준다
[파이낸셜뉴스] 국내 연구진이 개발한 인공지능(AI)에게 '출장 경비가 100만원 들 때, 결재를 어느 선까지 받아야 할까'라고 물었다. AI는 행정문서 파일을 검색한 뒤 '100만 원 이하인 경우, 실장 전결'이라고 답했다. 또한 사내 규정이 담긴 문서파일과 그 근거부분까지 찾아 보여줬다.

한국전자통신연구원(ETRI)은 언어지능연구실 임준호 박사팀이 사용자가 질문하면 문서파일을 검색해 정답을 알려주는 '행정문서QA' 어플리케이션 프로그램 인터페이스(API)를 개발했다고 7일 밝혔다. 또한 두 문장이 같은 의미인지 이해하는 '패러프레이즈' API도 개발했다. 연구진은 필요한 내용을 빠르게 파악해 업무 생산성을 높이고 정보 공유와 활용도를 높이는 데 도움이 될 것이라고 전망했다.


이 기술은 ETRI 공공 인공지능 오픈 API·데이터 서비스 포털에 공개돼 누구나 쉽게 이용할 수 있다. 임준호 박사는 "이 기술로 한국어 AI 서비스 시장이 더욱 활성화돼 외국산 AI 솔루션의 국내시장 잠식을 막고 국민들이 유용한 지식 정보를 쉽고 빠르게 습득할 수 있는데 도움이 되기를 기대한다"고 말했다.

연구진은 공동연구기관인 한글과컴퓨터에서 블라인드 평가로 정확도를 측정했다. 그 결과, 단락을 대상으로 검색해 나온 상위 5개 결과의 정확도는 89.65%, 표를 대상으로 진행한 검색에서는 81.5%로 높은 정확도를 보였다.

AI가 문서파일 검색해 정답 알려준다
또, 패러프레이즈 인식 API는 사람처럼 똑똑하게 문서를 보고 다른 형태의 문장이 같은 뜻을 지니는지 파악하는 기술이다. 앞서 나온 행정문서QA API와 다른 한국어 AI 개발에도 쓰일 수 있는 원천 기술이다.

AI와 딥러닝 기술은 사람과 달리 문장이 조금만 달라져도 의미 관계를 바르게 인식하지 못하는 견고성 문제가 있었다. 예를 들어 '그는 빨간 자전거를 샀다'와 '그가 산 자전거는 빨간색이다'라는 문장은 사람과 기계가 쉽게 구분한다. 하지만 '그는 빨간 자전거를 안 샀다'라는 문장과는 구분을 잘하지 못한다.

연구진은 딥러닝 기술의 견고성 한계를 개선해 다양한 유형의 문장에서 의미 관계를 인식하도록 API를 개발했다.
견고성 평가셋 대상 평가 결과, 96.63% 정확도를 보이며 기존 오픈소스 딥러닝 기술보다 성능을 크게 개선했다.

개발된 API는 표준인 XML 기반으로 문서 서식을 처리한다.
연구진은 현재 한글 문서 대상으로만 서비스가 가능하지만 개발 기술 자체는 워드, PDF 등 다른 문서에도 범용적으로 쓰일 수 있다고 설명했다.

monarch@fnnews.com 김만기 기자

fnSurvey