헬피 도큐먼트 비전은 문서 내 단락뿐 아니라 표, 차트, 수식, 이미지 등 다양한 시각적 요소를 자동으로 분석할 수 있다. 테이블 처리에 극대화한 시각언어모델(VLM)인 ‘헬피 테이블 비전’을 중심으로, 글로벌 최고 수준(SOTA) 오픈소스 모델들을 결합해 높은 정확도와 처리량을 동시에 달성했다는 설명이다.
헬피 테이블 비전은 도메인 맞춤형 최적화에 강점을 지녀 일반 모델이 인식하기 어려운 고문서나 근현대사 문서를 수백 건 수준의 데이터 학습만으로 정확히 분석할 수 있다. 또 수백행에 달하는 긴 엑셀 문서 분석, 차트·그래프의 데이터(HTML) 복원, 복잡한 수식 기호화 등 정밀한 구조화 데이터를 제공한다.
기존 상용 솔루션과 성능을 비교한 결과, 문서 레이아웃 분석 및 데이터 추출에 기존 솔루션은 평균 33.6초가 소요된 반면, 헬피 도큐먼트 비전은 평균 9.8초를 기록하며 약 3.4배 빠른 처리 속도를 나타냈다.
헬피 도큐먼트 비전은 사내 데이터와 학습 인프라를 유기적으로 결합해 금융, 의료, 법률 등 도메인별 특수 문서에 맞춘 빠른 최적화가 가능하다.
엘리스그룹은 VLM 기술을 문서 인식에 그치지 않고, 상황 판단 및 행동 수행까지 가능한 ‘시각 언어 행동 모델(VLA)로 발전시킬 계획이다. VLA는 AI가 복잡한 매뉴얼이나 도면을 보고 실제 산업 현장에서 로봇이나 기계를 정교하게 제어하게 돕는 기술이다.
엘리스그룹 김수인 최고연구책임자(CRO)는 “엘리스의 AI 문서 분석 솔루션을 통해 수작업으로 처리하던 복잡한 문서를 고품질 데이터로 전환함으로써 기업들이 실질적인 업무 자동화 혁신을 경험할 수 있도록 돕겠다”고 말했다.
mkchang@fnnews.com 장민권 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지