(서울=뉴스1) 송화연 기자 = 지난해말 불쑥 등장해 개인정보 논란 등을 일으키고 돌연 사라진 인공지능(AI) 챗봇 '이루다'가 진화해 '2.0' 버전으로 돌아온다.
이루다 개발사 스캐터랩은 지난 1년간 논란이 됐던 AI 윤리 문제와 개인정보보호 논란을 해소했다는 입장이다.
이루다 2.0은 어떻게 달라졌을까.
◇3주만에 사라진 이루다 1년만에 복귀한다
스캐터랩은 2022년 1월11일부터 '이루다2.0' 클로즈(비공개) 베타 테스트를 진행한다고 21일 밝혔다. 공식 출시에 앞서 이용자 의견을 받기 위한 과정으로, 3000명의 피드백을 받아 서비스를 고도화한다는 전략이다. 공식 출시일정은 내년 중 확정된다.
'누구에게나 좋은 친구가 되는 AI'를 목표로 개발된 이루다는 2020년 12월 출시 후 일상 대화형 챗봇으로 입소문을 타며 출시 2주 만에 80만명의 이용자를 모았다. 문제가 대두된 건 이루다가 성소수자, 장애인 등 사회적 약자에 대한 혐오 답변을 제시하면서다.
스캐터랩은 자사 앱 서비스인 '연애의 과학'과 '텍스트앳'을 통해 이용자 60만명이 제공한 카카오톡 대화 문장 약 94억건을 '이루다' 개발 과정에 사용했다.
이루다는 20대 여성들의 카카오톡 대화 문장 약 1억건을 답변 데이터베이스(DB)로 구축하고, 이 중 한 문장을 선택해 발화(답변)했다. 이 과정에서 AI 윤리 문제와 스캐터랩이 미처 비식별화(가명)처리하지 못한 데이터(특정 인물의 이름, 주소 등)가 등장하며 개인정보보호 위반 논란까지 더해졌다. 결국 이루다는 출시 3주 만인 지난 1월 서비스를 접어야했다.
이후 규제당국인 개인정보보호위원회는 스캐터랩이 자사 서비스에서 수집한 이용자의 카카오톡 대화 내용이 '개인정보'에 해당한다고 판단했다.
스캐터랩은 지난 3월 Δ개인정보를 수집하며 이용자(정보 주체)에게 명확하게 동의를 받지 않은 행위 Δ수집 목적 외로 이루다 학습·운영에 카카오톡 대화 문장을 이용한 행위 등을 이유로 1억330만원의 과징금·과태료를 부과받았다.
◇"이루다 1.0과 달라…이루다 2.0, 깐깐한 가명 처리 거쳤다"
"이번 일을 거치며 AI 기술 기업으로서 관련 기술과 서비스를 발전시키는 과정에 있어서 올바른 개인정보 처리의 필요성에 대한 무거운 사회적 책임을 느꼈습니다." (스캐터랩이 지난 4월 발표한 입장문 일부)
스캐터랩은 개인정보보호위원회 행정 처분의 후속 조치로 지난 1월 사내 프라이버시 특별팀(TFT)을 구성하고, 6개월에 걸쳐 개인정보보호 조치 강화 작업에 돌입했다. 개인정보보호위원회가 발표한 '가명정보 처리 가이드라인'에 따라 데이터의 위법 요소도 모두 제거했다.
재출시가 예고된 이루다 2.0은 '연애의과학', '텍스트앳'의 이용자 데이터를 바탕으로 하나 철저한 가명 처리를 거쳤다. 답변 데이터베이스의 경우 기계가 아예 새로운 문장을 생성해 구축했다는 것이 회사 측의 설명이다.
추가적인 필터링 단계를 거쳐 개인정보처럼 보여지는 내용도 답변에서 모두 제외됐다. 특정 인물의 이름과 휴대전화번호, 주소가 뜨던 일이 원천 차단됐다는 이야기다.
스캐터랩 관계자는 "이루다2.0가 학습한 데이터와 답변하는 데이터가 다르다"며 "이루다가 답변하는 데이터베이스는 기존 문장을 끌어오는 것이 아니라 AI 알고리즘이 자동으로 새 답변을 생성하거나 자사가 만들어둔 문장으로 답변하게 된다"고 설명했다.
스캐터랩은 개정 개인정보보호법에 의거해 문제가 될 수 있는 개인정보보호 위반 논란도 해결했다. 이루다 2.0이 학습한 대화 데이터는 과학적 연구목적으로 사용되기 때문에 엄격한 가명처리를 거칠 경우, 문제없이 활용될 수 있다.
스캐터랩 관계자는 "현행 개인정보보호법에 의거해 대화 데이터를 엄격하게 가명처리 한 후 과학적 연구 목적으로 사용하고 있다"며 "가명 처리한 데이터베이스는 과학적 연구 목적으로 인공지능 딥러닝 모델을 만드는 데 사용하며, AI챗봇을 통해 발화하는 문장으로 사용하지는 않는다"고 강조했다.
스캐터랩은 내년 중 한국어 대화 모델의 원리와 과정, 실험 결과 등을 스캐터랩 핑퐁팀 기술 블로그를 통해 공개할 예정이다.
※ 저작권자 ⓒ 뉴스1코리아, 무단전재-재배포 금지