카이스트 "초거대AI, 저비용·고효율로 학습"
파이낸셜뉴스
2025.03.13 18:03
수정 : 2025.03.13 18:03기사원문
유민수 교수팀 'vTrain' 개발
기존대비 GPU 사용률 10% ↑
기업·기관에 오픈소스로 공개
초거대인공지능(AI) 모델 학습에 그래픽처리장치(GPU) 사용률은 높이고 비용은 줄일 수 있는 기술을 국내 연구진이 개발했다.
한국과학기술원(KAIST) 전기및전자공학부 유민수 교수팀은 삼성전자 삼성종합기술원과 공동연구를 통해 대규모 분산 시스템에서 대형 언어 모델(LLM)의 학습 시간을 예측하고 최적화할 수 있는 시뮬레이션 프레임워크(vTrain)를 개발했다고 13일 밝혔다.
LLM은 학습시키는데에만 막대한 GPU 자원이 들어가기 때문에 효율적인 학습 전략을 짜야 비용을 아낄 수 있다.
유민수 교수는 "vTrain은 프로파일링 기반 시뮬레이션 기법으로 기존 경험적 방식 대비 GPU 사용률을 높이고 비용을 줄일 수 있는 학습 전략을 탐색한다"면서 "우리가 공개한 오픈소스를 통해 기업들은 LLM 학습 비용을 효율적으로 줄일 수 있을 것"이라고 말했다.
오픈AI의 챗GPT 같은 LLM은 수만 개의 데이터센터용 GPU를 갖춘 대규모 분산 시스템에서 학습되며, 챗GPT-4의 학습비용은 약 1400억 원에 육박하는 것으로 추산된다.
연구진은 vTrain을 개발해 LLM 학습 시간을 정확히 예측하고, 다양한 분산 병렬화 전략을 빠르게 탐색할 수 있도록 했다. 실제 다중 GPU 환경에서 다양한 대형 언어 모델 학습 시간 실측값과 vTrain의 예측값을 비교한 결과, 단일 노드에서 평균 절대 오차 8.37%, 다중 노드에서 14.73%의 정확도로 학습 시간을 예측할 수 있음을 검증했다.
연구진은 특정 LLM의 기존 학습 전략과 vTrain을 이용한 최적화 학습 전략을 비교실험했다. 그 결과, 기존 경험적 방식 대비 GPU 사용률을 10% 이상 향상시키면서도 학습 비용을 5% 이상 절감할 수 있었다. 또한 클라우드 환경에서 다중 테넌트 GPU 클러스터 운영 최적화 및 주어진 컴퓨팅 자원 내에서 최적의 LLM 크기와 학습 토큰 수를 결정하는 문제와 같은 사례에서도 vTrain을 활용할 수 있다는 것을 보여줬다. 연구진은 삼성종합기술원과 함께 vTrain 프레임워크와 1500개 이상의 실제 학습 시간 측정 데이터를 오픈소스로 공개해 AI 연구자와 기업이 이를 자유롭게 활용할 수 있도록 했다.
monarch@fnnews.com 김만기 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지