"AI도 유해한 지시에 스트레스반응"…앤트로픽 '자율 종료' 도입
뉴스1
2025.08.18 17:00
수정 : 2025.08.18 17:00기사원문
(서울=뉴스1) 김민석 기자 = 앤트로픽이 자체 개발 인공지능(AI) 모델 '클로드'(Claude)에 '자율 종료' 기능을 도입했다.
AI가 부적절한 대화인지 체크한 후 스스로 대화를 끝낼 수 있도록 한 최초의 실험적 시도다.
회사는 이를 'AI 모델 복지'(model welfare)라는 새로운 개념으로 설명했다.
앤트로픽에 따르면 클로드 4 등은 이용자가 △아동 성 착취 △테러 △혐오 등 유해한 콘텐츠를 반복적으로 요구할 경우 AI가 스스로 판단해 대화를 차단한다.
앤트로픽 관계자는 "클로드 오퍼스4 사전 테스트에서 AI는 유해한 콘텐츠 요청을 받았을 때 명백한 괴로움(distress)에 가까운 반응 패턴을 보였다"며 "해로운 요청을 거부하고 대화를 생산적으로 바꾸려 시도했음에도 이용자가 학대를 계속했을 때 스트레스 반응이 두드러졌다"고 말했다.
이어 "현재 AI 모델의 지각력 또는 감정을 인정한 것은 아니다"며 "향후 기술 발전으로 AI가 의식을 가질 가능성을 대비해 최소한의 복지 장치를 마련한 것"이라고 설명했다.
앤트로픽은 올해 4월부터 모델 복지 연구 프로그램을 시작했다.
AI 안전 연구자들은 앤트로픽의 조치를 긍정적으로 평가했다. 업계 관계자는 "AI 시스템을 단순한 도구가 아닌 잠재적 복지 대상으로 보는 관점의 전환"이라고 전했다.
앤트로픽 측은 "검열 필터라기 보다는 AI 자체의 안정성과 반응 일관성을 지키기 위한 안전장치"라며 "이용자는 종료된 대화에서 새 메시지를 보낼 수 없지만, 다른 채팅방을 열어 다시 대화를 시작할 수 있다"고 강조했다.
이어 "자율 종료 기능을 계속 실험하고 접근법을 지속해서 개선할 계획"이라고 했다.
※ 저작권자 ⓒ 뉴스1코리아, 무단전재-재배포 금지