애피어, 실행 전 확신도 평가하는 에이전트 기술 공개

[파이낸셜뉴스] 애피어는 최근 발표한 '거대언어모델의 캘리브레이션 연구: 응답에서 역량으로' 연구 논문에서 고도화된 인공지능(AI) 혁신을 위한 지속적인 투자 성과를 공개했다고 25일 밝혔다.

이번 연구는 거대언어모델(LLM)의 과도한 확신과 환각 현상을 해결하기 위해 AI 시스템이 주어진 과업을 해결할 수 있는지 스스로 능력을 평가하는 ’역량 캘리브레이션(Capability Calibration)’ 프레임워크를 제시한다.

이번 연구는 AI 에이전트에 중요한 역량을 부여한다. 답변을 생성하기 전에 해당 문제를 해결할 수 있는 가능성을 먼저 추정하는 능력이다. 정량화된 자기평가 메커니즘을 도입함으로써, AI 시스템은 보다 신뢰도 높은 의사결정을 내리고 연산 자원을 더욱 효율적으로 배분할 수 있다.

이를 통해 기업용 AI 도입 시 신뢰성, 비용 효율성, 확장성을 동시에 개선할 수 있다.

기존의 LLM 캘리브레이션은 개별 응답의 정확도, 즉 단일 답변이 맞는지에 초점을 맞춰왔다. 그러나 LLM의 출력은 확률적 특성을 가지기 때문에 동일한 질문에도 여러 번 시도할 경우 서로 다른 답변이 생성될 수 있다. 이 때문에 단일 응답만으로는 모델의 실제 역량을 충분히 파악하기 어렵다.

실제 기업 환경에서는 AI가 한 번 우연히 맞히는 것보다 해당 모델이 특정 과업을 일관되게 해결할 수 있는지 여부가 더 중요하다. 애피어의 역량 캘리브레이션 프레임워크는 평가 초점을 단일 응답의 확신도에서 ‘주어진 질문에 대해 모델이 성공적으로 문제를 해결할 확률(기대 성공률)’로 전환했다. 이를 통해 평가 대상은 개별 응답이 아닌 모델의 전반적인 문제 해결 역량으로 확장되며, 실제 비즈니스 환경에 보다 부합하는 성능 지표를 제공한다.

치한 위 애피어 최고경영자(CEO) 겸 공동창업자는 “AI 에이전트는 답변 생성에 그치지 않고, 스스로의 역량이 어디까지인지 이해할 수 있어야 한다”며 “역량 캘리브레이션을 통해 에이전트는 응답 전에 성공 확률을 추정하고 이에 따라 자원을 효율적으로 배분할 수 있다"고 강조했다.

이어 "단순한 질의는 빠르게 처리하고, 복잡한 과업은 더 강력한 모델이나 추가 연산 자원을 자동으로 활용하도록 만들 수 있다"면서 "이는 AI를 단순한 도구에서 벗어나 자원 관리, 비용 최적화, 의사결정 품질 향상을 능동적으로 수행하는 시스템으로 전환시키는 것으로, 기업용 AI 에이전트 확장을 위한 핵심 기반”이라고 전했다.

애피어는 이번 연구를 통해 역량 캘리브레이션과 기존 응답 캘리브레이션 간의 이론적 관계를 정립하고, 3가지 LLM과 7개 데이터셋(지식 집약형 및 추론 집약형 과업 포함)을 활용해 다양한 확신도 추정 방식을 비교 분석했다.

주요 평가 방법으로는 △모델이 텍스트나 백분율 형태로 자신의 확신도를 직접 표현하는 방식 △생성 과정의 신호를 기반으로 답변이 정답일 가능성을 추정하는 정답 확률 추정 방식 △모델 내부 신호를 활용해 실제로 문제를 이해하고 있는지를 판단하는 선형 탐사 방식 등이 활용됐다.

이 중 선형 탐사 방식이 성능과 비용 측면에서 가장 균형 잡힌 결과를 보였으며, 단일 토큰 생성보다 낮은 수준의 연산 비용으로도 안정적인 확신도 추정이 가능한 것으로 나타났다.

애피어 AI 연구팀은 앞으로도 역량 캘리브레이션 기술을 고도화해 모델 평가 방식 개선은 물론 모델 라우팅, 인간·AI 협업, 신뢰 가능한 AI 시스템 구축 등 다양한 영역으로 적용 범위를 확장할 예정이다.

또 애피어는 이러한 연구 성과를 자사의 광고 및 마케팅 솔루션에 통합해 기업들이 복잡한 디지털 생태계에서 보다 효율적이고 신뢰할 수 있는 에이전틱 AI 운영 체계를 구축하도록 지원할 계획이다.

mkchang@fnnews.com 장민권 기자