데이터 빠진 '깜깜이' 보건 통계, AI가 산모 사망률 알아낸다 [언박싱 연구실]
<47> 덕성여대 문지훈 교수팀
데이터 누락을 국가 보건 행정의 '신호'로 해석한 새 AI 모델
'여학생 중고교 진학률'이 산모 사망률에 가장 큰 영향
기존 AI 뛰어넘는 정확도로 UN 지속가능발전목표 달성 지원
[파이낸셜뉴스] 통계 데이터의 누락을 단순한 오류가 아니라 그 나라의 보건 행정 능력을 보여주는 중요한 '신호'로 해석해 산모 사망률의 예측 정확도를 높인 새로운 인공지능(AI) 모델이 개발됐다. 덕성여자대학교 데이터사이언스학과 학부생 연구팀(유시연·문영신·이가은·이유림)이 문지훈 교수의 지도 아래 수행한 이 연구는 순천향대학교 김현우 교수가 공동연구자로 참여했으며, 국제 학술지 '매스매틱스(Mathematics)'에 게재됐다.
아이 10만명을 낳을 때 사망하는 산모의 수를 뜻하는 '산모 사망률'을 낮추는 것은 UN이 전 세계 국가들과 함께 약속한 인류 공동의 목표(지속가능발전목표 SDG 3.1) 중 하나다. 하지만 보건 인프라와 행정 역량이 부족한 개발도상국에서는 각종 사회경제 지표 데이터가 제대로 수집되지 않아 통계 곳곳에 거대한 구멍, 즉 '데이터 누락(결측치)'이 체계적으로 발생한다.
기존의 AI 기술은 이렇게 빠진 데이터가 있으면 평균값으로 대충 채워 넣거나 아예 제외하고 계산해 실제 현실을 왜곡하는 경우가 많았다. 하지만 덕성여대 연구팀은 통계가 누락됐다는 사실 자체가 '해당 국가의 보건 행정 시스템이 취약하다'는 것을 보여주는 강력한 정보라고 판단하고, 이를 AI가 직접 학습할 수 있도록 설계를 바꿨다.
연구팀은 전체 데이터의 5% 이상 빠진 변수들을 따로 골라내 '이 데이터는 현재 누락된 상태'라는 정밀한 표시등을 달아주는 '분포 고려 선택적 마스킹(DASM)' 기술을 도입했다. AI가 비어 있는 값을 단순히 무시하는 것이 아니라, 조사 능력의 한계라는 행정적 취약성 자체를 예측의 단서로 삼게 만든 것이다.
여기에 더해 국가의 경제 수준이나 교육열처럼 밀접한 연관성을 가진 여러 지표 사이에서 유연하게 진짜 원인을 가려내는 '엔트맥스(Entmax) 순차적 주의집중 메커니즘'을 적용했다. 복잡하게 얽힌 사회경제 지표 중 산모 사망률을 높이는 진짜 핵심 원인을 마치 경쟁 오디션 프로그램처럼 단계별로 꼼꼼하게 선별해내는 기술이다.
새로 개발된 'MA-TabNet' AI 모델은 과거(2011~2015년) 데이터만 학습시킨 뒤 미래인 2016년의 산모 사망률을 예측하도록 엄격하게 시험했다. 그 결과 기존의 대표적 AI 모델들과 비교해 예측 오차를 최대 32%나 줄이며, 100점 만점에 97점 수준에 달하는 최고 수준의 예측 정확도(R²=0.9739)를 증명했다.
AI가 결론을 내린 이유를 설명해주는 AI 해석 도구인 'SHAP 분석' 결과도 흥미롭다. 다양한 사회경제 지표 중 산모 사망률에 가장 큰 영향을 미친 변수는 '여학생의 중고등학교 진학률(여성 교육 수준)'로 나타났다. 그 뒤를 이어 1인당 국내총생산(GDP), 저체중 아동 비율, 국가의 보건 재정 지출 순으로 영향력이 컸다. 또한 영양실조나 여성의 출산 연령 데이터가 누락됐다는 사실 자체도 산모 사망률 예측의 유효한 지표로 활용됐음이 확인됐다.
이번 연구는 AI와 데이터사이언스가 어떻게 국제 사회의 불평등을 포착하고 효율적 보건 정책을 세우는 데 기여할 수 있는지를 잘 보여준다. 대륙별 분석 결과, AI의 예측 오차는 아프리카 지역에서 가장 크게 나타났는데, 이는 향후 국제 사회가 어느 지역의 보건 통계 시스템 구축을 집중적으로 지원해야 하는지 알려주는 이정표가 된다.
연구를 지도한 문지훈 교수는 "이번 성과는 학생들이 수업과 비교과 프로그램에서 배운 지식을 실제 사회 문제 해결에 적용한 결과"라며, "학부생들도 체계적 지도와 적극적 연구 참여를 통해 국제적 수준의 연구 성과를 만들어낼 수 있다는 가능성을 보여줬다"고 말했다.
monarch@fnnews.com 김만기 기자










