터보퀀트 충격…KAIST 교수 "SW가 AI 판 바꿨다"
파이낸셜뉴스
2026.03.30 18:49
수정 : 2026.03.30 18:48기사원문
30일 KAIST가 온라인으로 진행한 간담회에서 한 교수는 "터보퀀트는 모델이 이전 대화 내용을 기억해 다음 답변에 활용하는 임시 메모리인 'KV 캐시'를 정확도 손실 없이 압축해 메모리 사용량을 6분의 1로 줄였다"고 밝혔다.
터보퀀트는 앞서 지난해 4월 논문 사전공개사이트 '아카이브'에 공개됐으며 다음 달 브라질에서 열리는 '국제표현학습학회(ICLR) 2026'에서 발표 예정이다.
터보퀀트는 데이터를 압축할 때 원값과의 오차인 '잔차'를 1비트 양자화해 저장하는 QJL 기법으로 보정해 편향성을 줄이고 정확도는 높였다. 이를 통해 장기 문맥 벤치마크(AI 성능평가)에서 3.5비트 압축에도 성능 저하가 없음을 선보였고, 엔비디아 H100 그래픽처리장치(GPU)에서 32비트 대신 4비트를 적용하면 속도를 8배 향상할 수 있음도 선보였다.
구글리서치 방문 연구원을 겸직하고 있는 그는 "온라인에서 이미 터보퀀트를 구현해 공개하고 있다"며 "기술을 정확히 이해하면 구현하고 AI에 적용하는 것은 어렵지 않을 것"이라고 전망했다.
이어 "좋은 알고리즘 하나로 AI 시스템을 효율화하면 하드웨어와 메모리 시장까지 영향을 줄 수 있다는 것에 놀랐다"며 "소프트웨어가 하드웨어 시장에 더 큰 영향을 미치면서 소프트웨어와 하드웨어가 함께 최적화해야 실제 AI 효율에 기여할 수 있음을 보인 것"이라고 강조했다. jiany@fnnews.com 연지안 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지