ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • GTC 2026과 AI 팩토리의 부상
    최신 기술동향 2026. 3. 28. 12:42

     AI/반도체 섹터의 가장 큰 행사인 GTC 2026이 마무리되었다. GTC 2026에서의 가장 큰 주제는 “AI 인프라의 판매 단위가 칩에서 '토큰을 가장 효율적으로 생산할 수 있는 AI 팩토리'로 올라갔다”는 점이다. NVIDIA 공식 키노트도 이번 행사의 방향을 가속컴퓨팅, AI 팩토리, 오픈 모델, 에이전트 시스템, 물리 AI로 요약했는데, AI 팩토리에 대한 얘기부터 다루려고 한다. 엔비디아는 단일 GPU가 아닌 GPU (Rubin), CPU (Vera), 새롭게 인수한 Groq의 LPU로 Task를 분배할 수 있는 '추상화' OS인 Dynamo OS를 강조했고, 네트워크 병목을 막기 위한 스위치, NIC, DPU 등 AI 팩토리를 구성할 수 있는 제품군으로 추론 시장 장악에 나섰다. 기존의 GTC가 다음 세대 GPU의 성능을 소개하는 자리였던 것과 비교하여, 7개의 칩과 5개의 랙으로 구성된 시스템 전체를 하나의 '제품'으로 정의했다. 기존 GTC 행사에서는  TFLOPS, 메모리 대역폭, 학습 속도가 핵심 지표였다. 그런데 이번에는 100만 토큰당 비용, 전력당 토큰 생산량, TPS/MW 같은 표현이 전면에 나왔다. 왜냐하면 AI 에이전트 시대에는 돈을 버는 구간이 학습이 아니라 추론이고, 결국 중요한 건 “한정된 전력 안에서 토큰을 얼마나 싸고 많이 뽑아내느냐”이기 때문이다. 이번 글에서는 GTC 2026에 소개된 엔비디아의 솔루션이 갖는 의미와 추론 시장에서 고민해야 할 포인트를 정리해보려고 한다.

    <소버린 AI와 토큰의 경제성>

     엔비디아의 수요 기반은 이제 빅테크 하이퍼스케일러만이 아니라, 소버린 AI CUDA 기반 AI 네이티브 기업들까지 포함하는 방향으로 넓어지고 있다. 국내에서도 소버린 AI에 대한 수요와 자본이 폭발적으로 풀리고 있으며, 중동/유럽 등 여러 국가들도 AI 주도권을 놓치지 않기 위해 국가적인 지출을 추진하고 있다. 많은 시장 조사 자료들이 이런 새로운 수요군들이 전체 수요의 40%를 차지하는 독립 성장축으로 부상했다고 본다.

     엔비디아 공식 자료는 Vera Rubin NVL72가 Blackwell 대비 100만 토큰당 비용을 1/10 수준으로 낮춘다고 언급한다. 매년 GTC를 보다보면, 여기서 더 성능을 쥐어짤 수 있구나라는 생각이 드는데, 칩에서의 최적화를 넘어 시스템의 최적화를 진행하다 보니, 토큰당 비용을 급격하게 낮출 수 있던 것으로 보인다. 

     많은 증권 레포트를 보면 'GPU 가격보다 추론 비용이 중요해지는 시기'라는 얘기가 나온다. 간단하게 요약하면, AI 공급자 입장에서는 '어떤 반도체가 가성비 좋냐'가 아니라 '어떤 반도체가 더 빠르고 많은 토큰 생성이 가능하냐'가 중요한 단계라는 얘기다. 그 핵심 이유로는 반도체 생산량은 대규모 Capex 투자가 필요하기 때문에 단기적으로는 공급량이 한정되어 있다는 점을 강조한다. 하지만, AI의 수요는 가파르게 증가하고 있으며, 챗지피티를 넘어 오픈클로 등 다양한 AI 에이전트 등이 주목받고 있다. 이런 이유로 GPU 생산 및 사용에 대한 장기 계약을 미리 맺어둔 AI 기업과 그렇지 않은 기업의 수익률 차이가 발생하기 시작했음을 지적한다. AI 고점론이 나오고 있지만, 중단기적으로는 반도체 분야에서는 공급 우위 시장이 이어질 것으로 전망하고 있으며, GTC에서도 해당 부분에 대한 내용이 나온다.

     <이기종 반도체의 조합과 OS를 통한 최적화>

     GTC 2026에서 젠슨황은 7개의 칩과 5개의 랙으로 구성된 시스템 전체를 하나의 ‘제품’으로 정의했다. 루빈(Rubin) GPU는 시스템의 일부분이고, 그 옆에는 자체 설계 커스텀 코어를 탑재한 베라(Vera) CPU가 있고, 200억 달러를 들여 인수한 그로크(Groq)의 LPU(Language Processing Unit)가 추론의 병목을 맡았다. 네트워크의 혈관을 통제하는 것은 ConnectX-9 NIC과 BlueField-4 DPU이며, 스펙트럼-6(Spectrum-6) 스위치에는 사상 최초의 상용 CPO(Co-Packaged Optics)가 박혀 있었다. 그리고 모든 이기종(Heterogeneous) 실리콘을 마치 ‘하나의 논리적 추론 엔진’으로 묶어주는 다이나모(Dynamo) OS가 있었다.

     이기종 반도체를 조합하기 위해서는 시스템을 이루는 부품 간의 연계도 변화가 필요하다. Cableless 구조, 더 많은 NVLink, Groq LPU 도입, Vera CPU 기반 서버 랙, Midplane PCB, 그리고 CPO까지 모두 한 방향을 가리킨다. AI 인프라가 점점 더 복잡한 조립품이 아니라, 사전 설계된 대형 시스템 상품으로 바뀌고 있다는 것이다. 이번 GTC에서 주목받은 CPO는 2026년 스케일아웃에 먼저 적용되고, 2026~2027년 랙 간 연결을 거쳐 2028년 이후 랙 내부로 확산될 가능성을 제시한다. 

     개발자가 CUDA 코드를 거의 건드리지 않고도 이기종 클러스터를 활용하게 만드는 것이 Dynamo OS의 핵심이다. 즉, 하드웨어를 더 많이 붙이는 것만으로 끝나는 게 아니라, 그 복잡성을 엔비디아가 OS 레벨에서 먹어버리는 구조가 만들어지는 것이다. 익히 알고 있는 CUDA가 “GPU용 소프트웨어 락인”이었다면, 이제는 Dynamo가 “AI 팩토리 전체에 대한 락인”으로 올라가고 있다. 엔비디아가 안하는 일부 영역을 먹어보자는 기업들의 전략 변화가 필요해 보인다.

    <Groq의 LPU 통합>

     이번 GTC 2026의 기술적 정점은 그로크 LPU를 시스템에 완전히 통합하여 추론 성능을 35배나 끌어올린 점이다. 트랜스포머 아키텍처를 기반으로 하는 LLM 추론, 특히 디코드 단계는 본질적으로 '자기 회귀(Auto-regressive)'를 사용한다. 다음 토큰 하나를 만들기 위해 모든 파라미터를 HBM에서 불러와야 하지만, 실제 필요한 연산량은 적다. 결과적으로 GPU는 데이터를 기다리느라 사이클의 대부분을 낭비하게 되기 때문에 메모리 대역폭이 연산 속도를 따라가지 못하는 '메모리 월'이 생긴다. 

     Groq의 LPU는 구글 TPU를 설계했던 엔지니어들이 만든 칩으로, 데이터의 이동을 100% 사전에 예측하는 구조를 갖추고 있다. 일반적인 프로세서는 데이터를 보낼 때 상대방이 받을 준비가 되었는지 묻는 ‘핸드셰이크’ 과정이 필요하지만, LPU는 모든 타이밍이 고정되어 있어 이런 오버헤드가 전혀 없다. 또한 용량은 적지만 대역폭이 압도적인 SRAM(500MB, 150 TB/s)을 사용하여 디코드 단계의 병목을 제거한다. 개발자가 기존처럼 코드를 작성하면, 다이나모 OS가 알아서 ‘어텐션(Attention)’은 GPU의 HBM으로, ‘디코드 FFN(Feed-Forward Network)’ 부분은 LPU의 SRAM으로, 에이전트의 논리 제어는 베라 CPU로 분배한다. 

     Groq의 칩이 '결정론적(Deterministic) 아키텍처'와 '정적 스케줄링' 방식을 사용한다는 점은 효율 측면에서 아주 큰 장점이 있지만, 몇 가지 약점도 존재한다. SRAM은 HBM보다 수십 배 빠르지만, 물리적으로 차지하는 면적이 커서 칩 하나에 담을 수 있는 용량이 매우 적기(약 230~500MB) 때문에, 대규모 시스템을 위해서는 많은 칩이 필요하다. (따라서, 디코딩 등 특정 영역에서만 활용된다.) 또한, 결정론적 구조를 위해서는 특정 모델로 확정된 일부 환경에서만 사용이 가능하다. 따라서, 어떤 모델을 사용할지 확정된 경우에는 Groq의 칩을 통한 효율화 및 시스템 최적화가 가능할 것으로 보인다.

    <국내 스타트업에 미칠 영향>

     국내에도 많은 팹리스 스타트업들이 있고, NPU 기업들은 엔비디아 GPU와의 전력 대비 성능 비교 등을 강조한다. 최근 국민성장펀드의 직접 투자가 결정된 리벨리온, 메타의 인수 제안을 받은 퓨리오사, LLM 특화를 강조하는 하이퍼엑셀, Edge AI를 위한 모빌린트나 딥엑스 등 수많은 스타트업들이 엔비디아와 경쟁하고 있다. 물론 이들 기업 모두 훌륭한 기업이고, 뛰어난 기술력을 가지고 있다고 의심치 않는다. 하지만, 나에게는 이번 GTC 2026이 '우리가 추론 특화 칩을 못 만드는 게 아니야, 그리고 칩이 아니라 시스템 단위로 추론 특화가 필요해!'라고 말하는 듯한 Groq의 LPX나 이기종 반도체를 사용한 시스템 구성이 가능한 Dynamo 등을 볼 때, 엔비디아가 GPU 하나만이 아니라 AI 시스템 전체를 제공할 수 있는 생태계 최강자임을 강조하는 자리 같았다. 

     AI 모델을 돌리기 위해 서버를 구축하려는 기업 입장에서는 '개발자의 편의성', 'Capex/Opex 등 비용', '안정적인 레퍼런스' 등이 중요하다. 많은 NPU/DPU 기업들은 특정 환경에서 자체 칩을 사용하여 오픈 모델을 돌려보았을 때의 성능을 비교 수치로 제시한다. 즉, Chip에서 발생하는 전력 대비 성능은 좋다는 Opex 우위를 내세우는 것인데, GTC2026과 최근 자료들은 대규모 토큰 생성을 위한 시스템 전체의 단가를 고려해야 함을 강조한다. 시스템 전체를 고려한 개발자 편의성을 주는 Dynamo, Opex 관점에서 추론에 최적화된 LPX, 대규모 공급을 통한 레퍼런스 등 국내 스타트업이 따라잡기에 벅찬 영역이라는 생각이 다시 한번 든다. 이를 고려할 때, 소버린 AI를 통해 정부가 레퍼런스를 쌓을 수 있는 수요를 뒷받침해 주고, 국산 NPU, AI Infra Scheduler, DPU 등 각각의 강점을 가진 스타트업들과 국내 메모리 업체 및 삼성 파운드리 등이 컨소시엄으로 뭉쳤을 때는 경쟁력을 가질 수도 있다고 생각한다. 단, 이를 위한 국내의 자원은 매우 한정적인 만큼 철저한 옥석 가리기를 통한 드림팀이 절실해 보인다.

    댓글

Designed by Tistory.