인공지능 오류, 줄기는커녕 갈수록 늘어난다

'강화 학습' 신기술 적용 뒤 급증 챗GPT 최신 o4 버전 환각률 48%

[웨스트채스터(미 펜실베이니아주)=AP/뉴시스]휴대전화 화면에 보이는 챗GPT 로고. 인공지능의 환각률 등 오류가 갈수록 늘어나 심각한 우려를 낳고 있다. 2025.5.7.

[서울=뉴시스] 강영진 기자 = 오픈AI의 인공지능 챗GPT가 등장한지 불과 2년여 만에 각종 인공지능(AI)이 널리 사용되고 있으나 AI의 오류비율이 줄기는커녕 오히려 늘고 있다고 미 뉴욕타임스(NYT)가 6일(현지시각) 보도했다.

프로그래머 기술 지원회사 커서가 지난달 고객들에게 1대 이상의 컴퓨터에서 커서의 프로그램을 사용할 수 없다는 회사 정책 변경을 알렸다.

그러자 고객들이 분노해 커서 이용을 중단했다. 그러나 이 회사는 정책을 변경한 적이 없으며 인공지능 봇이 있지도 않은 정책 변경을 공지했다고 밝혔다.

오픈AI, 구글, 중국의 딥시크 등이 활용하는 최신 '추론 시스템'이 오류를 줄이기는커녕 오히려 더 많이 발생시키고 있다.

이들 AI는 수학적 능력이 크게 향상된 반면 사실을 다루는 능력은 오히려 악화됐다. 그러나 그 이유조차 분명하지 않은 상황이다.

AI 봇은 방대한 디지털 데이터를 분석해 학습하는 복잡한 수학적 시스템을 기반으로 한다. 이들은 무엇이 진실이고 거짓인지 결정하지도, 결정할 수도 없으며 이들은 정보를 지어내는 일도 잦다. 이른바 환각현상이다.

AI는 인간이 정의한 규칙이 아니라, 수학적 확률을 사용하여 최선의 응답을 추측한다. 따라서 일정하게 실수하는 것은 불가피하다.

이런 현상은 AI에 대한 불신을 유발해왔으며 법원 문서, 의료 정보 또는 민감한 비즈니스 데이터를 사용하는 사람들에게는 심각한 문제다.

오카후 설립자 프라틱 베르마는 "응답이 사실인지 아닌지를 파악하는 데 많은 시간을 소비하게 돼 AI의 가치가 사라지고 있다“고 강조했다.

오픈AI는 챗GPT의 최신 버전 o3의 환각률이 33%에 달한다고 밝혔다. 이는 기존 버전 o1보다 2배 높은 환각률이다. 가장 최신 버전인 o4는 환각률이 더 높아진 48%였다.

인공 지능은 사람들이 이해할 수 있는 것보다 많은 데이터를 학습한다. 따라서 인공 지능이 어떻게 작동하는지를 인간이 충분히 이해하지 못하는 상태가 지속되고 있다.

벡타라는 2023년 말부터 챗봇이 진실에서 얼마나 벗어나는지를 추적했다. 뉴스 기사를 요약하는 등 쉽게 검증이 가능한 작업을 수행하도록 지시하는 방법으로 인공지능이 얼마나 많은 허위 정보를 지어내는지를 검증한 결과 인공 지능이 최소 3~27%%까지 허위 정보를 지어내고 있음을 밝혀냈다.

이후 1년 반이 지나도록 오픈AI와 구글 등이 이 수치를 1~2% 수준으로 낮췄다. 앤스로픽 인공지능은 계속 4%였다.

그러나 최신 시스템에서 환각률이 다시 증가했다. 딥시크의 R1은 14.3%, 오픈AI의 o3는 6.8%로 올랐다.

초기 인공 지능 회사들은 인터넷 데이터를 최대한 많이 공급함으로써 성능이 향상된다고 생각해 최대한의 정보를 제공하는데 집중했다.

그러나 인공 지능이 인터넷 상의 거의 모든 영어 자료를 학습하게 되면서 성능을 개선할 새로운 방법이 필요해졌다.

이에 따라 새롭게 강화 학습이라고 부르는 기술이 대거 활용되고 있다.