IT 정보통신

2년6개월간 인터넷 게시글 55만건 파헤쳐보니…드러난 '혐오의 민낯'

뉴스1

입력 2022.02.03 07:00

수정 2022.02.03 07:00

스마일게이트 AI센터 로고(홈페이지 캡처)© 뉴스1
스마일게이트 AI센터 로고(홈페이지 캡처)© 뉴스1


스마일게이트 AI센터, 악플 혐오 표현 분석한 데이터셋 공개(스마일게이트 제공)© 뉴스1
스마일게이트 AI센터, 악플 혐오 표현 분석한 데이터셋 공개(스마일게이트 제공)© 뉴스1

(서울=뉴스1) 이정후 기자 = 2년6개월 동안 포털 사이트와 커뮤니티 사이트의 게시글 55만건을 분석한 기업이 있다. 그중에서 악플과 혐오 표현만 걸러내 1만개의 데이터셋을 구축하고 이를 누구나 활용할 수 있도록 무료로 공개했다.

빅데이터 전문 기업 이야기가 아니다. 최근 동시접속자 26만명을 기록하며 '제2의 전성기'를 맞고 있는 다중접속역할게임(MMORPG) '로스트아크' 개발사 스마일게이트 그룹의 이야기다.

이번 악플 및 혐오 표현 데이터셋 구축 작업은 스마일게이트엔터테인먼트 산하의 '스마일게이트 인공지능(AI) 센터'에서 진행했다.

게임 회사의 인공지능 연구 센터가 혐오 표현을 분석한 이유는 무엇일까.

◇'친구 같은 AI'에 필요한 'AI 윤리'

스마일게이트 AI센터가 추구하는 인공지능은 많은 양의 정보를 쉽게 처리하는 '단순한 정보 제공자'가 아니라 사람과 유사하게 만들어진 '매력적이고 인간적인 AI'이다.

스마일게이트 AI센터는 이를 '재미있는 AI'(Fun AI)와 '인간적인 AI'(Human-Like AI)로 소개한다. 한 마디로 '친구 같은 AI'를 만들겠다는 말이다.

'친구 같은 AI'를 만들려는 시도는 이전에도 있었다. 2020년 12월 말 인공지능 스타트업 스캐터랩이 내놓은 인공지능 챗봇 '이루다'는 사람들의 실제 대화를 딥러닝으로 학습해 사람들과 대화할 수 있는 서비스로 출시됐다.

당시 이루다는 개발사 스캐터랩의 앱 서비스 '연애의 과학'과 '텍스트앳' 이용자들이 제공한 카카오톡 대화 문장 94억건을 토대로 인간의 언어를 학습했다.

하지만 서비스 과정에서 이루다는 성 소수자, 인종 등을 대상으로 혐오 표현을 내뱉으며 'AI 윤리'라는 숙제를 우리 사회에 안겼다.

이루다는 혐오 표현을 사용하는 우리의 모습을 제3자의 입장에서 그대로 보여줬던 '거울'이었던 셈이다. 결국 이루다는 개인정보보호 논란 문제까지 더해지며 출시 3주 만에 서비스를 중단한 바 있다.

◇혐오 발언 잡기 위한 데이터셋…'AI 윤리' 실천에 도움

스마일게이트 AI센터의 이번 프로젝트는 이루다가 불러왔던 'AI 윤리'와 일부분 맞닿아 있다.

스마일게이트 AI센터 관계자는 "이번 데이터셋 구축은 이용자를 향한 인공지능의 혐오 발언과 함께 인공지능을 향한 이용자의 혐오 발언 모두를 잡아내기 위해 기획됐다"고 24일 밝혔다.

기획 의도에 따르면 이번에 구축된 데이터셋은 인간과 인공지능 사이의 대화에 '혐오 표현'이 오가지 못하도록 만들어져 일종의 'AI 윤리' 실현 방안으로 기능할 수 있다.

인공지능이 인간과 자연스러운 대화를 하기 위해서는 인간의 언어를 해석하고 맥락을 이해할 수 있는 자연어 처리 기술이 필요하다. 이 과정에서 이번 데이터셋을 활용하면 혐오 표현의 배제가 사전에 가능한 셈이다.

스마일게이트 AI센터가 공개한 이번 데이터셋의 활용 방안은 이외에도 매우 다양하다.

일례로 스마일게이트 AI센터 측은 게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇 등 여러 분야에서 혐오 발언 여부를 확인하는 데 쓸 수 있다고 설명했다.

◇인공지능 기반 가상 인간으로도 활용 방안 커지나

활용 범위를 넓히면 인공지능 기반 가상 인간으로의 적용도 기대해 볼 만하다.

인공지능을 연구하는 많은 기업들은 인간과 자연스러운 대화가 가능하도록 인공지능에게 수많은 실제 인간의 대화를 학습시킨다.

그동안 문제가 됐던 인공지능 대화 서비스들은 이 과정에서 혐오 표현을 미처 거르지 못해 발생했다.
자연어 처리 기술이 발달함에 따라 혐오 표현 데이터셋이 함께 적용된다면 인공지능 기반 가상 인간에서 발생할 수 있는 관련 문제도 줄어들 수 있다.

스마일게이트 AI센터는 이번 프로젝트를 시작으로 향후 지속적인 연구개발(R&D)을 실시해 혐오 표현을 보다 높은 정확도로 찾아낼 수 있도록 기술을 고도화하겠다고 밝힌 상황이다.


스마일게이트 AI센터 관계자는 "이 데이터셋이 인공지능의 윤리뿐만 아니라, 인간의 윤리, 사회 전반적으로 발생하는 혐오의 양상 분석 등에 적용될 수 있을 것이라 판단했다"고 말했다.