IT 정보통신

데이터댐 본격 개방…170종·4.8억건 데이터 쏟아진다

서영준 기자

파이낸셜뉴스

입력 2021.06.18 10:00

수정 2021.06.18 10:21

[파이낸셜뉴스] 과학기술정보통신부는 한국지능정보사회진흥원(NIA)과 국내 인공지능(AI) 기술 및 산업 발전의 촉진제가 될 인공지능 학습용 데이터 170종, 4억8000만건을 AI 허브를 통해 개방한다고 18일 밝혔다.

인공지능 학습용 데이터 인포그래픽. 과학기술정보통신부 제공
인공지능 학습용 데이터 인포그래픽. 과학기술정보통신부 제공

지난해 구축해 이번에 개방하는 8대 분야 170종의 AI 학습용 데이터는 데이터 기획부터 구축까지 산업계, 전문가뿐만 아니라 많은 국민들이 참여한 결과물이기에 더욱 뜻깊다.

우선 민간의 광범위한 수요를 바탕으로 분야별 산학연 전문가, 주요 활용기업 등이 직접 참여해 산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 AI 학습용 데이터를 기획했다.

데이터 구축에는 국내 주요 AI·데이터 전문기업은 물론 주요 대학 48개, 병원 25개) 등 총 674개 기업과 기관이 대거 참여했으며 특히 데이터 수집·가공 등 구축 과정에 경력단절여성, 취업준비청년 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명이라는 많은 국민들의 참여를 이끌어내었다.

AI 허브에 대규모로 개방되는 AI 학습용 데이터의 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 모았다. 지난해 9월부터 8대 분야별 산학연 전문가 80여명이 참여하는 품질자문위를 운영해 전문적 품질관리 지원체계를 구축했으며 주요 대기업, 스타트업, 대학 및 연구기관 등 20여개 기업과 기관이 참여해 데이터 개방 전 활용성 검토를 진행해 실제 수요자가 요구하는 데이터 품질을 확보하고자 했다.


과기정통부와 NIA는 데이터 개방 후에도 이용자 참여형 집중개선기간 운영 등을 통해 이용자의 요구사항을 적극 반영하는 등 민관 협력을 기반으로 데이터를 지속적으로 개선해나갈 계획이다.

이번에 AI 허브에 개방되는 AI 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업뿐 아니라 대기업도 자체 확보하기 어려운 대규모 데이터를 제공한다는 점에서 그동안 국내 AI 산업계에서 가장 큰 걸림돌로 꼽은 문제인 데이터 갈증을 어느 정도 해소할 수 있을 것으로 전망된다.

그동안 국내 AI 기업들은 AI 개발에 필요한 데이터 확보를 위해 해외 오픈데이터를 많이 활용해왔다. 그러나 한국어, 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 국내 AI 서비스 개발에 활용되기 어려운 문제가 있었다.

이번에는 지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등 한국형 AI 학습용 데이터가 대폭 확충돼 국민이 체감할 수 있는 AI 서비스 개발이 가속화될 수 있을 것으로 기대된다.

과기정통부는 AI 학습용 데이터의 대규모 개방과 함께 데이터 활용 촉진과 성과 확산 등을 위해 이날 AI 데이터 활용협의회 출범식을 갖고 현장 간담회를 개최해 데이터를 실제로 활용하는 기업과 기관들의 생생한 의견을 수렴했다.

AI 데이터 활용협의회는 데이터 품질관리 전문기관인 TTA와 이번 170종 데이터의 활용성 검토에 참여한 기업, 기관을 중심으로 구성됐으며 AI 허브 데이터를 적극 활용하고 성과를 공유·확산하는 한편 데이터 품질 제고와 지속적 개선에 협력해 나갈 예정이다.

과기정통부와 NIA는 지난해 구축한 8대 분야 170종의 데이터를 이날 60종을 시작으로 6월말까지 순차적으로 개방할 예정이다. 특히 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 오는 30일에 개방할 계획이다.
이번 개방은 데이터 제공과 더불어 이용자와 함께 더 나은 데이터 제공을 위한 개선점을 찾기 위해 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다.

데이터 개방과 함께 AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영하고 전문기관과 협력해 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF를 운영한다.


임혜숙 과기정통부 장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이 이번에 공개되는 데이터들이 산업 곳곳에서 널리활용돼 혁신의 열매를 맺을 수 있기를 기대한다"며 "정부도 고품질의 AI 학습용 데이터를 지속적으로 제공하고 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는데 지원을 아끼지 않겠다"고 말했다.

syj@fnnews.com 서영준 기자

fnSurvey