“경험 없어도 척척”... AI 강화학습 기법 개발
파이낸셜뉴스
2025.04.21 08:52
수정 : 2025.04.21 08:52기사원문
[파이낸셜뉴스] 낯선 상황에서도 스스로 올바른 판단을 내리는 인공지능 기술이 개발됐다. 자율주행차가 눈길을 만나거나, 로봇이 운반하던 상자의 무게가 갑자기 바뀐 상황에서 AI의 안전성과 신뢰성을 높일 수 있을 것이라는 기대다.
21일 울산과학기술원(UNIST)에 따르면 UNIST 인공지능대학원 윤성환 교수팀은 환경 변화에도 성능 저하 없이 안정적으로 작동하는 강화학습 기법을 개발해 세계 3대 인공지능 학회인 ICLR의 구두 발표 논문으로 채택됐다.
강화학습은 정답을 미리 알려주는 지도학습과 달리, AI가 시행착오를 통해 얻는 보상을 최대화함으로써 문제해결 전략인 ‘정책’을 찾아간다는 점에서 더 인간에 가까운 학습방식이다. 하지만 기존 강화학습은 학습하지 않은 낯선 환경에서는 성능이 급격히 떨어지는 한계가 있다.
연구팀은 누적 보상의 민감도를 낮추는 학습법을 제안했다. 행동 변화에 따른 누적 보상 값의 변화가 지나치게 커지지 않도록 정책 파라미터 공간에서 누적보상의 곡면을 평탄하게 만드는 학습 전략이다. 기존 방식은 자율주행차가 눈길에서 감속 타이밍을 살짝 놓치면 큰 보상 손실로 이어져 전체 성능이 무너졌지만, 제안된 방식은 정책이 조금 바뀌어도 성능이 일정하게 유지된다.
윤성환 교수는 “높은 수준의 일반화 성능을 갖는 강화학습 모델이 필요한 로보틱스, 자율주행 등에 활용될 것”이라고 기대했다.
한편, ICLR(International Conference on Learning Representations)은 ICML, Neurips와 더불어 세계 3대 AI 학회로 꼽힌다. 연구 수행은 정보통신기획평가원, 한국연구재단, UNIST의 지원을 받아 이뤄졌다.
jiany@fnnews.com 연지안 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지