AI 초벌 채점, 서·논술형 평가의 '구원투수' 될까

파이낸셜뉴스       2026.04.19 12:29   수정 : 2026.04.19 12:29기사원문
교육과정평가원, AI 자동채점 모델 적용방안 연구
중·고생 답안 1만3000건 실증 분석
AI는 형식 보고, 교사는 논리 따져





[파이낸셜뉴스] 인공지능(AI)이 서·논술형 답안을 채점할 수 있지만, 교사와 보는 기준이 근본적으로 다른 것으로 나타났다. AI는 문장 길이나 어미의 다양성 같은 형식적 요소에 높은 점수를 주는 경향이 있는 반면, 교사는 개념을 정확히 이해했는지, 논리적 근거가 타당한지를 더 중요하게 본다. 이 관점의 차이가 AI 자동채점이 넘어야 할 가장 본질적인 과제로 지목됐다.

한국교육과정평가원(KICE)은 국어·수학·사회·과학·기술 5개 교과를 대상으로 AI 자동채점 모델을 개발하고 성능을 검증한 연구 결과를 19일 발표했다. 연구를 이끈 정수진 국가평가관리센터 부연구위원은 이번 연구가 가능성과 한계를 동시에 확인했다고 밝혔다.

이번 연구는 실제 중·고등학생 답안 1만3652건을 수집해 학습 데이터로 활용했다. AI가 예측한 점수와 실제 교사 채점 결과 사이의 상관계수는 수학 서술형의 경우 최대 0.77, 사회 논술형은 약 0.66 수준으로 나타났다.

여러 AI 모델의 판단을 합산하는 앙상블 방식이 전 교과에 걸쳐 가장 안정적인 성능을 보였고, 키워드 분석과 형태소 분석을 결합한 혼합형 채점 방식도 상대적으로 우수한 결과를 나타냈다.

구축한 학습 데이터를 교과별로 보면 수학 3491건, 과학 3250건, 사회 2619건, 기술 1096건, 국어 914건이며, 전문가 채점 라벨링을 거쳐 최종 정제된 데이터는 1만1370건이다. 기술 교과는 이번 연구에서 처음으로 자동채점 대상에 포함됐으며, 친환경 에너지와 스마트팜 등 실생활 맥락의 문항을 대상으로 578건의 학생 응답을 수집해 데이터를 구축했다. 임베딩 기반 모델의 경우 AI 예측 점수와 실제 채점 결과 사이의 상관이 0.6~0.7 수준으로 나타나, 사전 채점 보조 도구로서의 활용 가능성도 확인됐다.

AI 채점의 한계는 수치 너머에도 존재한다. AI가 왜 그 점수를 줬는지 학생에게 납득할 수 있게 설명해야 한다는 설명 가능성 문제, 학생 답안이라는 민감한 개인 정보를 어떻게 보호할지의 보안 문제도 현장 도입 전에 반드시 풀어야 할 과제로 남아 있다. 연구팀은 이 두 문제가 선결되지 않으면 교육 현장에서 신뢰를 얻기 어렵다고 지적했다.


서·논술형 평가는 학생의 사고력과 표현력을 측정하는 데 효과적이지만, 채점에 드는 시간과 인력 부담 때문에 학교 현장에 뿌리내리지 못해왔다는 지적이 꾸준히 제기돼 왔다. 정수진 부연구위원은 "이번 연구는 AI를 활용한 평가 혁신의 기반을 마련했다는 데 의의가 있다"며, "AI가 초벌 채점을 담당하고 교사가 이를 검토·확인하는 방식이 현실화된다면 서·논술형 평가의 학교 현장 안착에 실질적인 도움이 될 것"이라고 말했다.

연구팀은 향후 과제로 더 많은 교과와 문항을 아우르는 대규모 학습 데이터 확보, 거대언어모델 등 최신 AI 기술 적용, 교육부·교육청 등 관련 기관 간 협력 체계 구축을 제시했다.

monarch@fnnews.com 김만기 기자

Hot 포토

많이 본 뉴스