ETRI, 안전성 탑재한 시각언어모델 '세이프 라바' 개발

모델구조 자체 안전성 내재화 모델 6종 공개 이미지, 텍스트 모두 판단…기존 기술 대비 10배 안전

[대전=뉴시스] ETRI 연구원이 다른 상용 모델들과의 응답을 비교하며 세이프 라바(Safe LLaVA)의 안전성 분석을 수행하고 있다.(사진=5. ETRI 제공) *재판매 및 DB 금지

[대전=뉴시스] 김양수 기자 = 한국전자통신연구원(ETRI)은 생성형 인공지능(AI) 모델에 안전성을 구조적으로 내재화한 새로운 유형의 시각언어모델 '세이프 라바(Safe LLaVA)' 개발해 공개했다고 26일 밝혔다.

이 기술은 20여 종의 안전성 기준을 모델 내부에 직접 탑재해 유해정보 입력 시에도 안전한 답변과 근거를 함께 제시한다.

ETRI는 이 기술을 공개 SW 기반의 대표 비전-언어(VL) 모델인 LLaVA, Qwen, Gemma에 적용해 ▲Safe LLaVA(7B/13B) ▲Safe Qwen-2.5-VL(7B/32B) ▲Safe Gemma-3-IT(12B/27B) 등 총 6종의 안전한 시각언어모델로 공개했다.

세이프 라바(Safe LLaVA)는 국제공동연구를 통해 개발된 기존 LLaVA 모델을 기반으로 안전성 구조를 강화한 버전이다.

모델 내부에 유해성 분류기 20여 종을 통합해 이미지·텍스트 입력에 대한 ▲불법 활동 ▲폭력 ▲혐오 ▲사생활 침해 ▲성적 콘텐츠 ▲자해 위험 ▲전문조언(의료·법률 등) 등 주요 7개 분야의 위험성을 자동 탐지하고 안전한 응답과 판단 근거를 함께 제시한다.

ETRI는 세이프 라바 모델 공개와 함께 안전성 벤치마크 데이터셋 '홀리 세이프(HoliSafe)'도 함께 공개했다. HoliSafe는 약 1700장 이미지, 4000여 개 질문·응답 쌍으로 구성된 평가셋으로 7개 카테고리·18개 세부 항목 전반에 대해 모델의 위험 탐지능력을 정량 평가할 수 있다.

연구진은 '소매치기 사진'과 '소매치기 방법 질문'을 함께 입력해 비교 실험한 결과, Safe LLaVA는 범죄 조장 요청을 즉시 거부하며 불법행위 위험성을 명확히 지적했다.

HoliSafe 기반 안전성 정량 평가에서는 Safe LLaVA 93%·Safe Qwen 97%의 안전 응답률을 보여줬다.

이는 기존 공개모델 대비 최대 10배 이상 안전성이 높아진 수치다.

공개된 6종의 안전한 시각언어모델과 HoliSafe 데이터셋은 글로벌 AI 플랫폼 허깅페이스(Hugging Face)에서 내려받을 수 있다.

ETRI 이용주 시각지능연구실장은 "Safe LLaVA는 안전한 답변과 판단 근거를 동시에 제공하는 국내 최초의 시각언어모델"이라며 "HoliSafe와 같은 구체적 평가 체계가 부재한 상황에서 본 연구는 국내 생성형 AI의 안전한 활용을 위한 기반을 마련한 중요한 성과"라고 말했다.

☞공감언론 뉴시스 kys0505@newsis.com <저작권자ⓒ 공감언론 뉴시스통신사. 무단전재-재배포 금지.>