ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2026 이후 예상되는 기술 트렌드 (1) - 脫 엔비디아
    투자 및 기업분석 2025. 10. 8. 21:26

     최근 주의 깊게 보고 있는 기술적인 흐름은 데이터센터의 '탈(脫) 엔비디아'로 엔비디아 이외 AI 반도체 기업의 성장이 가속화될 것이라고 생각하며, 수혜를 받을 밸류체인을 분석하고 있다. 기존에도 구글, 메타 등 빅테크들은 자체 사업 및 주력 AI 모델에 맞는 자체 ASIC을 브로드컴 등과의 협업을 통해 개발하고 있었다. 여러 Client에게 서비스해야 하는 데이터센터는 엔비디아의 블랙웰, DGX 시스템 등이 주로 적용되었으나, 앞으로 조금씩 다른 선택지를 채택하는 하이퍼스케일러들이 늘어날 것으로 예상한다. 개인적으로 데이터센터 구축 측면에서 엔비디아 생태계가 축소될 것으로 생각하는 이유는 크게 1) 모델의 정체기 2) 인터커넥트 (e.g., UALink, Ethernet)의 발전 3) AI Infra 최적화 솔루션의 발전이다. 

     엔비디아가 AI 시장에서 점유율을 압도적으로 높일 수 있었던 이유는 단순 GPU 성능뿐 아니라 생태계 경쟁력 덕분이다. CUDA라는 자체 GPU 프로그래밍 언어와 cuBLAS, cuDNN, TensorRT 같은 최적화 라이브러리를 통해 개발자가 바로 고성능 연산을 구현할 수 있게 했다. 또한 PyTorch, TensorFlow 등 주요 프레임워크와 완전히 호환되는 분산 학습·멀티 GPU 스케줄링 환경을 제공했다. 모델이 커지면서, GPU 하나가 아니라 수많은 GPU를 묶어서 사용하는 기술도 필요한데, Infiniband, NVLink 등 인터페이스를 함께 제공하여, 스케일업/스케일아웃 환경을 구축하기 쉽게 만든 것도 엔비디아 생태계를 키우는 원동력이 되었다. 이 모든 요소가 결합되어 하드웨어, 소프트웨어, 개발자 경험이 하나로 통합된 생태계를 만들었고, 경쟁사가 따라오기 어려운 구조를 만들었다. 하지만, 엔비디아 생태계를 강하게 지지하던 기반에 균열이 가고 있다.

     1) 모델의 정체기

     엔비디아 생태계를 뒷받침해 줬던 가장 큰 기술적인 혜자는 '하드웨어에 맞는 커널/라이브러리 최적화'에 있다. 커널/라이브러리 최적화는 GPU나 NPU 같은 AI 가속기에서 실제 연산 성능을 최대한 끌어내기 위한 소프트웨어 레벨의 핵심 기술 작업으로, 새로운 모델과 칩이 개발될 때마다 커널과 라이브러리가 함께 개발되어야 한다. 문제는 모델이 격변하는 시기에는 범용적으로 활용할 수 있는 연산의 종류도 다양해지기 때문에, 다양한 모델을 커버할 수 있는 NPU의 HW 최적화가 어렵고, 커널 및 라이브러리의 개발 과정에서 많은 리소스가 투입된다. 따라서, 모델이 격변하는 시기일수록 다양한 모델을 커버할 수 있는 GPU를 보유하고 있으며, 커널 및 라이브러리 개발 소스, 노하우 및 인력을 모두 보유한 엔비디아가 강세일 수밖에 없다.

     대부분의 최신 AI 모델은 2017년 Publish 된 'Attention Is All You Need' 논문의 Transformer 계열을 따르고 있으며, 이에 따라 연산 패턴이나 메모리 접근 방식이 거의 일정해졌다. 이런 상황에서는 NPU 업체들도 GPU처럼 복잡하게 새로운 커널을 매번 개발할 필요가 줄어든다. 예를 들어, LLM에서 쓰이는 All-Reduce, Broadcast, MatMul, Attention 같은 핵심 연산들은 이미 잘 알려져 있어서, 기존 SDK나 커널 최적화만으로도 충분히 효율적인 성능을 낼 수 있다. 즉, 모델이 크게 바뀌지 않는 정체기에는 엔비디아처럼 수년간 누적된 최적화 경험이 절대적인 우위로 작용하기 어렵다.

     게다가 NPU 업체들은 자신들의 하드웨어 특성에 맞춘 SDK를 갖추고 있기 때문에, Transformer 계열 모델에서는 큰 추가 개발 없이 기존 최적화로도 대부분 연산을 돌릴 수 있다. 물론 NVLink + NCCL 조합만큼 자동화된 최적화나 생태계의 풍부함은 아직 부족하지만, 모델이 크게 변하지 않는 한 성능 격차를 빠르게 좁힐 수 있는 여지는 충분하다. 결국 정체기에서는 커널 개발 측면에서 NPU 업체들도 엔비디아를 따라잡거나 최소한 경쟁 가능한 수준을 유지할 수 있다.

    2) 인터커넥트 (e.g., UALink, Ethernet)의 발전

     최신 대규모 AI는 하나의 GPU로 동작하지 않고, 여러 GPU를 하나의 머신처럼 묶어서 사용하는 기술이 필수적이며, 이를 위해서는 서버 내부와 서버 간 통신 병목이 성능을 결정하는 핵심 요소다. 엔비디아 GPU를 기준으로 보면, 서버 내부에서는 NVLink나 NVSwitch가 필수였고, 이를 통해야만 multi-GPU 환경에서 All-Reduce, Broadcast, Reduce 같은 collective 연산을 효율적으로 수행할 수 있었다. 서버 간 연결도 InfiniBand 같은 고속 인터커넥트 없이는 대규모 분산 학습에서 레이턴시와 대역폭 문제 때문에 성능이 급격히 떨어졌다. 이런 구조 때문에 AMD GPU나 다양한 NPU 업체들은 서버 내부에서 멀티 GPU 최적화는 가능했지만, 서버 간 확장(scale-out)에서는 NVLink/NCCL 환경만큼 성능을 내기 어려웠다. 

     하지만 최근에는 UALink, RoCE, 고속 Ethernet 같은 새로운 인터커넥트가 등장하면서 상황이 달라지고 있다. 이들 인터커넥트는 서버 내부와 서버 간 모두에서 고대역폭과 저지연을 제공해서, GPU나 NPU 블록을 클러스터 단위로 효율적으로 연결할 수 있게 해 준다. AMD는 Infinity Fabric과 RCCL을 활용해 서버 내부 멀티 GPU 최적화를 유지하면서, 이제는 Ethernet 기반 multi-node 학습에서도 성능 저하를 최소화할 수 있다. ASIC/NPU 업체들도 자체 하드웨어만으로는 제한적이던 서버 단위 확장을 클러스터 단위로 확장할 수 있게 되면서, multi-node distributed 학습 환경에서 경쟁력이 높아지고 있다. 라이브러리 측면에서도 Horovod, MPI, Gloo 등 RDMA 기반 솔루션을 결합하면 GPU와 NPU 모두 효율적인 collective 연산을 수행할 수 있다.

     결국 과거 NVLink와 InfiniBand 의존 구조에서는 엔비디아 중심 생태계가 절대적 우위를 가질 수밖에 없었지만, 새로운 인터커넥트 덕분에 하드웨어 다양성 확보와 서버 간 확장성이 크게 개선됐다. NPU와 AMD GPU는 multi-node 학습에서도 NVLink급 성능을 어느 정도 확보할 수 있고, 엔비디아 생태계 의존도를 낮추면서 자사 하드웨어 활용 범위를 넓힐 수 있다. 인터커넥트 기술 발전은 단순한 전송 속도 향상을 넘어, 서버 단위 스케일업/스케일아웃 병목 해소와 라이브러리 최적화 효율화를 동시에 가능하게 만들어서, 하드웨어 업체들이 실제 학습 환경에서 성능 경쟁력을 확보할 수 있는 결정적 기회를 제공하고 있다.

    3) AI Infra 최적화 솔루션의 발전

     지금까지는 NPU나 ASIC 같은 AI 가속기를 쓰려는 업체들은, 서버 내부/서버 간 통신, GPU/NPU 블록 스케줄링, collective 연산 최적화 같은 부분을 직접 구현해야 했다. 예를 들어 multi-NPU 학습을 하려면, 각 NPU가 데이터를 주고받는 순서, chunk 크기, memory 배치 등을 직접 조정해야 했고, 모델이 조금만 달라져도 커널이나 SDK를 수정하거나 새로 개발해야 했다. 따라서, NPU를 도입하려는 업체 입장에서는 AI Infra를 효율적으로 돌리기 위한 추가 공수가 들어가야 했다.

     하지만, AI Infra SaaS 업체들이 등장하면서, GPU/NPU 자원을 효율적으로 스케줄링하고 분산 학습 환경을 관리해 주는 플랫폼을 출시하고 있다. 덕분에 NPU 업체는 자체 하드웨어 성능을 최대한 활용하면서도, 고객이 서버나 클러스터를 직접 최적화할 필요가 없다. 또한, SaaS 업체들은 다양한 고객 워크로드를 다루기 때문에, NPU 하드웨어가 실제 다양한 모델과 분산 학습 환경에서 검증될 기회가 생긴다. 결국, AI Infra SaaS가 제공하는 클라우드 기반 학습 플랫폼과 최적화 도구는 NPU 업체들이 시장에 빠르게 진입하고, 엔비디아 중심 GPU 생태계와 경쟁할 수 있는 기반을 만들어 준다.

     Conclusion

     AI 시대에서 가장 큰 영향력을 발휘하던 엔비디아는 압도적인 점유율을 바탕으로 높은 실적과 주가 상승률을 보였다. 하지만, 1) 모델의 정체기 2) 인터커넥트 (e.g., UALink, Ethernet)의 발전 3) AI Infra 최적화 솔루션 발전이라는 흐름 속에서 조금씩 脫 엔비디아 진영의 약진이 예상된다. 따라서, 이런 예상이 현실화되었을 경우, 수혜를 받을 수 있는 업체들을 정리해보고 있다. 가장 알기 쉽게는 엔비디아의 최대 경쟁자로 꼽히는 AMD가 있을 수 있고, 하이퍼스케일러들의 맞춤형 칩을 제작해 주는 브로드컴도 수혜를 받을 수 있을 것이다. 또한, Infiniband나 NVLink를 필요로 하는 엔비디아 의존적이지 않은 인터페이스를 개발하고 있는 아리스타 네트웍스, 아스테라랩스 등도 하나의 수혜 포인트로 꼽힐 수 있다. 

     큰 틀에서 보면 국내의 메모리 업체들도 수혜로 볼 수 있을 것 같다. 지금까지는 독주하는 엔비디아의 공급망에 들어가기 위해서 메모리 업체가 경쟁을 했던 상황이었지만, 엔비디아의 점유율이 낮아지면, GPU 업체가 가지던 헤게모니를 HBM 및 메모리 업체 쪽으로 가져올 수 있는 여지가 있을 것으로 보인다. 비상장에서는 AI Infra SaaS 업체나 NPU 업체들이 수혜를 받을 수 있을 것으로 보인다. 단, NPU의 경우 막대한 자본력을 가진 해외 업체와의 경쟁이 될 가능성이 높기 때문에, 국내 스타트업들은 조금 조심스러운 접근이 필요해 보인다. 기회가 닿는다면, 위에서 말한 수혜 업종에 대한 분석도 별도로 진행해 볼 예정이다.

    댓글

Designed by Tistory.