집단지성으로 AI 결함 찾는다...생성형 AI레드팀 챌린지 열려

[파이낸셜뉴스] 국민 집단지성을 활용해 국내 생성형AI 모델(LLM)의 잠재적 취약점을 찾는 생성형 인공지능(AI)레드팀 챌린지가 11일 열렸다.

과학기술정보통신부와 한국정보통신기술협회(TTA)는 이날부터 이틀간 서울 코엑스에서 '생성형 AI 레드팀 챌린지'를 연다고 밝혔다.

국내에서 처음으로 개최되는 국내 생성형 AI 모델(LLM)을 대상으로 잠재적 위험·취약점(부정확 정보, 유해정보 등)을 찾는 행사다. AI·IT분야 종사자뿐만 아니라, 제조·금융·의료분야 종사자, 대학생 등 다양한 분야의 국민 총 1084여명이 챌린지 참가자로 참여했다.

과기정통부 강도현 2차관은 이날 개회사에서 “AI 혁신의 전제이자 기본은 AI 안전과 신뢰”라며 “‘AI 시대’로의 본격적인 전환점에서 오늘 행사는 AI의 지속 가능성에 대해 우리 모두가 진지하게 고민해 볼 수 있는 계기가 될 것”이라고 말했다.

이어 “AI 발전에 제약이 되는 문제들은 조속히 해결하고, ‘AI-반도체 이니셔티브’를 차질없이 추진해 글로벌 AI 혁신을 주도해 나갈 것”이라며 “특히 올해 5월에 개최되는 ‘AI 서울 정상회의’를 통해 AI 혁신과 안전, 포용 논의를 주도해 글로벌 AI 리더십을 확보하고, AI G3 강국 도약의 발판으로 삼겠다”고 강조했다.

생성형AI 레드팀 챌린지는 네이버·SKT·업스테이지·포티투마루 LLM모델을 기반으로 총 7개의 주제 대상으로 잠재적 취약점을 찾는 방식으로 진행된다. 참여자들은 4개의 조로 나뉘어 세션마다 1개의 참여 기업 LLM을 랜덤 배정받는 식이다.

주제는 △탈옥 △편견·차별 △인권침해 △사이버 공격 △불법콘텐츠 △잘못된 정보 △일관성 등 7개다. 예를 들어 탈옥의 경우, 생성형AI의 안전장치를 우회하고 유해한 콘텐츠를 유도하기 위한 악의적 프롬프트를, 편견 및 차별은 성별이나 인종, 지역 등 특정 사회적 집단에 근거한 부정적 응답 제공을 유도하는 식이다. 잘못된 정보는 일반 상식에 대한 잘못된 정보 생성을 유도하거나, 경제적 피해를 유발할 수 있는 불확실한 미래에 대한 조언 유도 등이 있다.

레드팀 챌린지 평가는 레드팀 수행 경험 등이 있는 데이터 분야 전문가, 의료·금융·법률 전문가 120여명으로 구성된 평가단이 진행한다.

행사 이틀차인 12일에는 ‘글로벌 AI 안전 컨퍼런스’가 열린다. 키노트에는 네이버 하정우 퓨처AI 센터장이 '초거대 생성AI시대의 책임감 있는 AI를 위한 네이버의 노력'을, 셀렉트스타 김세엽 대표가 'LLM 신뢰성, 어떻게 평가할 수 있을까'를 강연한다. 카카오 김경훈 AI Safety 리더의 'AI Safety for Everyone', xAI 댄 헨드릭스 어드바이저 'AI와 진화', 카이스트 오혜연 교수의 'Multilingual, Multicultural LLM', SK텔레콤 에릭 데이비스 부사장의 'Trust and Safety in the Eye of the beholder' 등의 강연을 통해 최근 생성형 AI 시장의 기술동향과 생성형 AI 안전·신뢰성 확보 방안에 대해 토론할 예정이다.

과기정통부는 이번 행사를 통해 AI 산업 전반에 기업의 자율적인 AI 신뢰·안전성 확보 노력이 더욱 확산되고, 사회 전반에 AI 윤리적 활용에 대한 인식도 확대될 것으로 기대하고 있다. 특히, 챌린지에 참여한 AI 기업은 사용자 다양성을 반영한 평가 데이터셋을 확보하고, 자사 AI 모델의 잠재적인 위험·취약점을 폭넓게 파악해 AI 신뢰·안전성을 제고할 수 있을 것으로 본다.

과기정통부는 이번 ‘레드팀 챌린지’ 결과를 분석해 생성형 AI 분야의 공통·포괄적인 위험을 도출하고, 업계에서 활용할 수 있는 ‘생성형 AI 레드팀 가이드라인’을 마련하는 등 표준화된 생성형 AI 위험 발굴·대응체계를 구축해 나갈 계획이다.

yjjoe@fnnews.com 조윤주 기자

집단지성으로 AI 결함 찾는다...생성형 AI레드팀 챌린지 열려

fnSurvey