2024년 대비 다운로드 수 5배 증가…최근 두 달만 1.2억회
이파피루스 "GPU 필요한 제품보다 10배 빠르게 문서 데이터 추출"
[서울=뉴시스]오동현 기자 = 이파피루스는 자사 문서 데이터 추출 라이브러리 '파이뮤PDF 프로(PyMuPDF Pro)'의 올해 다운로드 수가 지난해 연간 대비 5배 이상 증가했다고 11일 밝혔다.
‘파이뮤PDF 프로’는 인공지능(AI) 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이썬 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다.
파이썬 개발자들을 위한 패키지 저장소인 PyPI에서 올해 1월부터 11월까지 총 2억2000만 회 이상 다운로드 됐다. 이는 작년 1월부터 12월까지의 다운로드 합계인 4400만 건을 크게 상회하는 수치다. 특히 올해 9월을 기점으로 폭발적으로 증가, 10월부터 11월까지의 다운로드 수만 1억2000만 회에 이른다.
김정아 이파피루스 부사장은 "'파이뮤 PDF 프로'는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(말뭉치)를 생성할 수 있으며, 추출한 문서 데이터를 LLM(대규모 언어 모델) 및 RAG(검색 증강 생성) 친화적인 제이슨(JSON)과 마크다운(Markdown), 라마인덱스 리더(LlamaIndex Reader) 파일로 출력할 수 있어 AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 매우 유리하다"고 소개했다.
현재 AI 전처리를 위해 사용되는 시중의 문서 데이터 추출 솔루션 대부분은 문서를 고해상도 이미지로 인식한 뒤 데이터를 추출하는 VLM(비전 언어 모델) 방식을 기반으로 한다.
이와 달리 ‘파이뮤PDF 프로’는 자체 개발한 머신러닝 기반 레이아웃 분석기를 통해 문서 구조 자체를 파악해 데이터로 추출, VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다. 특히 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 복잡한 문서 추출에 있어서 독보적인 정확도와 속도를 자랑한다.
‘파이뮤PDF 프로’는 그래픽처리장치(GPU)가 필요한 VLM 방식과 달리 중앙처리장치(CPU)만으로도 동작해 비용 부담이 적은 것도 강점이다. 추출 대상 문서로 PDF, MS오피스, 한글 문서, 이미지 외 다양한 포맷을 지원한다.
‘파이뮤PDF 프로’는 오픈AI, 오라클(Oracle), 보쉬(Bosch), DHL, 도큐싸인(DocuSign), 슈나이더일렉트릭(Schneider Electric) 등 유수의 글로벌 기업으로부터 성능을 인정받고 있다. 테스트가 필요한 고객들을 위해 홈페이지 내 데모 페이지와 60일 무료 체험 라이선스를 제공한다.
☞공감언론 뉴시스 odong85@newsis.com <저작권자ⓒ 공감언론 뉴시스통신사. 무단전재-재배포 금지.>
저작권자ⓒ 공감언론 뉴시스통신사. 무단전재-재배포 금지