엔비디아가 이번주 열리는 연례 GTC(GPU기술콘퍼런스)에서 ‘추론(inference)’ 전용 칩을 공개할 예정이라고 파이낸셜타임스(FT)가 14일(현지시간) 소식통들을 인용해 보도했다.
GTC는 오는 16일 미국 캘리포니아주 새너제이에서 열린다. 19일까지 나흘 일정이다.
엔비디아의 블랙웰 같은 범용 GPU(그래픽처리장치)는 여러 작업에 두루 사용 가능한 만능 칩이지만 가격이 지나치게 비싸다는 것이 큰 걸림돌이다.
이 틈을 비집고 들어간 것이 알파벳 산하 구글의 TPU(텐서처리장치) 등이다.
소식통들에 따르면 젠슨 황 최고경영자(CEO)가 기존 AI 학습용 GPU보다 저렴한 추론용 칩을 이번 GTC에서 공개한다.
이 칩은 지난해 12월 200억달러에 인수한 이스라엘 스타트업 그록(Groq)의 LPU(언어처리장치)의 기술을 활용한 첫 번째 제품이 될 전망이다. LPU는 복잡한 인공지능(AI) 작업 요구에 고속으로 대응하는 데 초점이 맞춰진 칩이다.
추론 시장에서 구글 TPU를 비롯한 각 업체들의 자체 칩으로 인해 시장 지배력을 상실할지 모른다는 우려 속에 엔비디아가 기존의 범용 칩 전략을 수정한 것으로 보인다.
엔비디아는 생성형 AI의 허리뼈 역할을 범용 GPU를 발판 삼아 지난 3년 AI 학습 시장을 지배해왔고, 시가총액도 4조5000억달러로 불어나 세계 최대 상장 기업이 됐다.
황 CEO는 그동안 엔비디아의 범용 칩이 학습과 추론 모두에 적합하다며 기존 전략을 고수할 생각이었지만 AI 에이전트가 등장하면서 판이 바뀌자 마음을 고쳐먹었다.
엔비디아의 ‘만능’ AI 칩은 아울러 심각한 공급 부족 속에 가격이 치솟고 있는 SK하이닉스와 마이크론 등의 HBM(고대역폭 메모리)를 필요로 한다는 점에서 공급이 원활하지 않다.
소식통들에 따르면 그록 기술이 적용되는 엔비디아의 추론용 칩은 HBM에 사용되는 D램 대신 S램(정적 랜덤 액세스 메모리)을 사용하게 된다.
S램은 CPU(중앙처리장치)의 캐시 메모리에 주로 쓰이는 칩으로 CPU나 GPU 옆에서 가장 자주 쓰는 데이터를 초고속으로 주고받는 역할을 한다. 그동안 보조적인 ‘캐시’로만 쓰던 이 S램을 그록 등이 D램 없이 오직 S램으로만 AI 칩을 만들겠다며 덤벼들었다.
S램은 D램에 비해 데이터 처리 속도가 훨씬 빠르고 지연 시간(latency)도 거의 없이 AI가 즉각적으로 반응하도록 하는데 매우 유리하다.
S램으로 가격과 효율성을 잡은 추론용 칩을 엔비디아가 내놓으면 학습용 시장에 이어 추론용 시장에서도 지배자 지위를 이어갈 수 있다.
뱅크오브아메리카(BofA)에 따르면 AI 데이터센터 시장 규모는 2030년 1조2000억달러로 성장하고, 이 가운데 75%가 추론 시장이다. 지난해에는 약 50%였다.
BofA는 지난주 분석 노트에서 엔비디아가 GTC를 통해 그록 기술을 활용한 S램 기반 추론 칩을 공개할 것이라면서 AI 포트폴리오를 확대할 것이라고 전망했다.
한편 엔비디아는 이번 GTC에서 올 하반기로 예고한 차세대 AI 칩 ‘베라 루빈’ GPU 양산 일정도 확정할 것으로 보인다. 아울러 2028년 출시 목표인 ‘파인만’ 아키텍처에 관해서도 상세하게 설명할 것으로 예상된다.
dympna@fnnews.com 송경재 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지