IT IT일반

독도 분쟁까지 평가…KT, 한국 특화 AI 벤치마크 'KSAFE-MM' 선봬

최혜림 기자

파이낸셜뉴스

전 세계 문화권 적용 가능해 저비용·고효율

[파이낸셜뉴스] KT가 한국 사회와 문화적 맥락을 반영해 멀티모달 인공지능(AI)의 안전성을 검증할 수 있는 국내 최대 규모 평가 체계를 공개했다. 전세 사기, 독도 분쟁 등 한국 특유의 사회·문화적 이슈까지 반영해 AI 모델의 위험 응답을 점검할 수 있도록 한 것이 특징이다.

16일 업계에 따르면 KT와 고려대학교는 멀티모달 대형언어모델(MLLM) 벤치마크 'KSAFE-MM'을 공개했다. 'KSAFE-MM'은 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁과 같은 한국 사회 고유의 이슈를 반영한 'KSAFE-MM-C'로 구성된다.

국내 최대규모 한국어 멀티모달 안전성 평가 데이터셋이며 총 1만 4135개의 평가 샘플로 이뤄졌다. 젬마, 하이퍼클로바 X 등 12개 글로벌 멀티모달 대형 언어모델(MLLM)을 검증한 바 있다.

이번 벤치마크의 가장 큰 특징은 안전성 평가 데이터 구축 전 과정을 자동화한 범용 파이프라인을 제시했다는 점이다. 기존 벤치마크는 수동 검수 중심이라 비용이 많이 들고 효율도 높지 않다는 지적이 나왔다. 'KSAFE-MM'은 현지 커뮤니티 기반 민감 주제 수집부터 템플릿 기반 질문 생성, 합성 이미지 생성, AI의 안전장치나 윤리 제한을 교묘하게 우회하도록 변형된 탈옥 질문 생성까지 전 과정을 자동화한 4단계 파이프라인을 구축했다. 이러한 표준 프레임워크로 특정 문화권 전문가가 아니더라도 현지 특성을 반영한 안정성 벤치마크를 빠르게 만들 수 있게 됐다.

KT·고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험을 통해 전 세계 어느 문화권에도 즉시 적용 가능할 수 있음을 실증했다.
이번 연구 결과는 실제 AI 서비스 환경에서의 안전성 검증, 레드팀 테스트, 가드레일 모델 평가 등 여러 목적으로 활용될 수 있을 것으로 보인다. 연구결과 및 벤치마크는 아카이브와 허깅페이스에 공개돼 누구나 활용할 수 있다.

KT AX미래기술원 프론티어 AI랩장 박재형 상무는 "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리 잡길 기대한다"고 말했다.

kaya@fnnews.com 최혜림 기자