'AI 결과 조작' 백도어 공격, 해법 찾았다

파이낸셜뉴스 2026.03.31 06:30 수정 : 2026.03.31 06:30기사원문

UNIST 연구팀, IEEE 보안 신뢰 기계학습 ‘안티-베드’ 대회 세계 2위

[파이낸셜뉴스] 인공지능(AI)은 보이지 않게 심어진 신호 하나로 위험한 답을 내놓기도 한다. UNIST(울산과학기술원) 연구진이 이런 숨은 조작을 걷어내는 해법으로 국제 무대에서 성과를 냈다.

31일 UNIST에 따르면 UNIST 산업공학과·인공지능대학원 박새롬 교수와 인공지능대학원·전기전자공학과 윤성환 교수 공동 연구팀은 지난 23일부터 25일까지 독일 뮌헨에서 열린 국제전기전자공학회(IEEE) 보안·신뢰 기계학습 학회(Security and Trustworthy Machine Learning, SaTML)의 ‘사후학습 대규모 언어모델 백도어 방어 챌린지(Anti-Backdoor Challenge for Post-Trained Large Language Models, Anti-BAD)’에서 2위를 차지했다.

보안·신뢰 기계학습 학회(SaTML)는 인공지능 보안 연구를 중심으로 열리는 IEEE 주관 국제 학술대회로, 인공지능 모델을 위협하는 각종 공격과 이를 막는 방어 기술을 발표하고 논의하는 장이다.

연구팀은 생성, 분류, 다국어 등 서로 다른 과제에 두루 적용할 수 있는 범용 공격 완화 기법을 제시해 호평을 받았다.

백도어 공격은 인공지능 모델이 특정 결과를 내놓도록 몰래 심는 조작 기법이다. 평소에는 정상적으로 작동하지만, 특정 단어나 문장 같은 ‘트리거’가 입력되면 의도된 반응을 보이도록 만드는 방식이다. 대규모 언어모델(LLM)처럼 복잡한 모델도 소수의 공격 데이터와 짧은 미세조정만으로 오염될 수 있어, 인공지능 안전성을 흔드는 대표적 위협으로 여겨진다.

이번 안티-배드(Anti-BAD) 챌린지는 이처럼 서로 다른 목적에 맞춰 미세조정된 LLM에 숨어 있는 트리거의 영향을 최소화해, 공격받지 않은 것과 같은 안전한 모델을 확보하는 방어법을 겨루는 대회였다. 생성 과제 2개, 분류 과제 2개, 다국어 과제 2개가 제시됐고, 각 과제마다 3개씩의 LLM 모델이 주어졌다. 참가팀은 모델 구조와 과제 유형 전반을 아우를 수 있는 범용 방어 기법을 내놔야 했다.

UNIST 공동 연구팀의 핵심 기술은 ‘모델 양자화(model quantization)’, ‘모델 병합(model merging)’, ‘이상치 매개변수 탐지(outlier parameter detection)’, ‘과신뢰 방지(overconfidence mitigation)’를 결합한 전략이다.

연구팀은 먼저 모델 양자화 과정에서 생기는 미세한 흔들림으로 숨어 있던 백도어 신호를 흐트러뜨렸다.

이어 여러 모델이 공통적으로 유지하는 정보만 남기는 합의 기반 모델 병합 기법을 적용해 악의적 반응을 약화시켰다.

분류와 다국어 과제에서는 정상적으로 학습된 모델과 백도어가 삽입된 모델을 비교해 비정상적으로 바뀐 부분을 찾아 영향력을 줄였다. 여기에 입력 데이터에서 수상한 단어를 걸러내고, 모델이 틀린 답에도 지나치게 확신하지 않도록 조정하는 절차를 더해 빠르면서도 효과적으로 백도어를 완화했다. jiany@fnnews.com 연지안 기자

'AI 결과 조작' 백도어 공격, 해법 찾았다

Hot 포토

많이 본 뉴스