ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 관심있는 주요 학회 (AI, 반도체)의 2025년 테마 정리
    최신 기술동향 2025. 12. 26. 07:55

     카페에 앉아서 크리스마스 캐롤을 듣다 보니 2025년을 마무리하는 시기가 왔다는 느낌이 든다. 개인적으로는 이직도 하고, 다사다난했던 한 해였는데, 바쁘게 돌아다니다 보니 관심 있는 학회들에서 어떤 주제가 연구되었나에 대해 리뷰해 볼 시간이 없었다. (변명) 그래서 카페에 앉아 구글 제미나이와 ChatGPT에게 딥리서치를 시켜서 작년보다 훨씬 편하게 공부를 해보았다. 심층 질문에 대해 꼬리 질문도 할 수 있고, ChatGPT한테 물어본걸 제미나이에게 교차 질문을 하는 등 다양한 방식으로 공부를 했는데, 그중 일부를 이번 글에 정리하려 한다.

     질문은 '2025년에 열린 Hot chips, NSDI, Sigcomm, NeurIPS, ISCA 등 AI 및 반도체 주요 학회의 핵심 주제에 대해 소개해줘. 해외의 빅테크들이나 MIT 등이 저자로 있는 논문이면 좋고, 산업에 영향을 많이 미칠 것 같은 주제로 부탁해.'라고 했다. 개인적으로는 빅테크들의 참석이 많고, 아이디어의 시뮬레이션 결과만이 아닌 프로토타입 단계까지라도 구현을 해야 Accept을 주는 학회에 관심이 많다. 답변으로는 정말 논문 리스트만 던져줬는데, 학회의 주요 테마만 빠르게 파악하려는 취지로 시작한 작업이었기에, 해결하려는 Problem과 Solution을 중점으로 간단하게 요약해 달라고 추가 부탁했다. (참고로 빨간색은 직접 표시했다.)


    🔹 Hot Chips 2025

    NVIDIA ConnectX-8 / SuperNIC

    • 요지: PCIe Gen6 + 800 GbE를 지원하는 AI 전용 NIC으로, GPU 간 통신 병목을 NIC에서 직접 해결
    • 의미: AI 클러스터의 성능 한계가 GPU가 아니라 네트워크/통신 스택으로 이동했음을 명확히 보여줌

    Co-packaged Silicon Photonics (NVIDIA, Celestial AI 등)

    • 요지: 스위치/가속기 다이에 광 I/O를 직접 통합해 전력·대역폭 문제를 해결
    • 의미: 대규모 AI 팜에서 전기적 인터커넥트는 더 이상 스케일하지 않음 → 광으로 구조 전환

    Microsoft Azure Secure Hardware Architecture

    • 요지: 클라우드 서버 SoC 레벨에서 보안 루트·격리·암호화 기능을 기본 탑재
    • 의미: 퍼블릭 클라우드에서 보안이 소프트웨어 문제가 아니라 실리콘 설계 문제가 됨

     

    🔹 NSDI 2025 (클라우드 시스템)

    OptiReduce (MIT/Industry 협업)

    • 요지: 딥러닝 학습에서 일부 gradient 손실을 허용해 통신 병목을 제거
    • 의미: “정확도 100%”보다 학습 시간 단축이 더 중요한 단계로 진입

    RAJOMON

    • 요지: 마이크로서비스 간 트래픽을 시장(price) 메커니즘으로 자동 제어
    • 의미: 대규모 클라우드에서 중앙 스케줄러 없이도 안정성 확보 가능함을 입증

    Prism (Alibaba)

    • 요지: 추천 모델을 CPU/GPU로 분리 배치해 자원 단편화를 제거
    • 의미: GPU 부족 문제는 “칩 부족”이 아니라 배치·아키텍처 문제임을 보여줌

     

    🔹 SIGCOMM 2025 (네트워크)

    Mosaic (Microsoft, Best Paper)

    • 요지: microLED 기반 ‘느리지만 넓은’ 광 링크로 저전력·고신뢰 통신 구현
    • 의미: AI DC에서는 최고 속도보다 에너지·신뢰성이 더 중요해짐

    Falcon (Google)

    • 요지: TCP/RDMA를 대체하는 하드웨어 기반 범용 전송 프로토콜
    • 의미: AI 트래픽에 기존 네트워크 스택은 구조적으로 한계에 도달

     

    🔹 NeurIPS 2025 (AI 알고리즘 + 시스템)

    DFloat11

    • 요지: 가변 길이 부동소수 포맷으로 LLM 파라미터를 손실 없이 압축
    • 의미: “정밀도 감소 = 성능 손실”이라는 오랜 가정이 깨짐

    LRQK (Long-Context Attention)

    • 요지: Attention KV cache를 저랭크 구조로 분해해 GPU 메모리 사용 최소화
    • 의미: LLM의 한계는 파라미터 수가 아니라 메모리 구조임을 명확히 제시

     

    🔹 CVPR 2025 (Efficient Vision / Edge)

    ML Drift (Microsoft)

    • 요지: GPU 메모리/스트림 최적화로 기존 대비 10~100배 큰 비전 모델을 실시간 추론
    • 의미: “온디바이스 AI”가 작은 모델을 의미하지 않게 됨

     

    🔹 ISCA 2025 (아키텍처 / 칩)

    Meta MTIA v2 (Inference Accelerator)

    • 요지: HBM 없이 SRAM 중심 설계로 추천 모델 추론 비용 44% 절감
    • 의미: 추론은 GPU가 아니라 워크로드 특화 ASIC이 주도할 가능성 큼

    LLaMA-3 405B Training System (Meta)

    • 요지: 4D 병렬화로 1.6만 GPU를 효율적으로 묶어 초대형 모델 학습
    • 의미: LLM 경쟁력은 모델보다 분산 시스템 설계 역량에서 갈림

    DCPerf

    • 요지: 실제 데이터센터 워크로드를 반영한 오픈 벤치마크
    • 의미: CPU/가속기 성능 평가는 이제 SPEC이 아니라 DCPerf의 시대

     위의 주제들을 관통하는 큰 키워드는 GPU 및 HBM 칩들의 성능보다는 네트워크와 시스템이 병목이며, SIGCOMM에 소개된 Microsoft의 MOSAIC는 AI DC를 위한 새로운 인터커넥터를 제안하였다. (네트워크 및 시스템 학회가 많아서일 수도) AI 병목은 연산 → 메모리 → 네트워크 순으로 이동하는데, NIC, 인터커넥트, 메모리 구조, 시스템 SW가 경쟁력의 핵심임을 강조한다. 빅테크는 공통적으로 “일반 목적 HW + 특화 가속 + 시스템 공학”의 조합으로 균형점을 찾아가는 중이다. 위의 논문 리스트 중에 조금 더 공부해보고 싶은 논문 몇 개를 뽑아서 "Problem과 Solution을 조금 더 구체적으로 설명해 주고, 상용화 단계 및 넘어야 할 허들"을 물어봤다. (관심 있는 논문들은 별도로 조금 더 읽어볼 계획이다.) 추가적으로, NeurIPS 2025에 Nested Learning이라는 논문이 나왔는데, 관심 깊게 읽은 논문이라 이에 대해서도 질문을 했다. 


    1) Mosaic (Microsoft Research) – Wide-and-Slow MicroLED Optical Interconnect

    📌 Problem

    현재 데이터센터 네트워크는 구리 케이블 vs 광 트랜시버 사이에서 절충(trilemma)을 강요받습니다:

    • 구리: 낮은 전력과 높은 신뢰성 → 도달거리 극도로 짧음 (<2 m)
    • 기존 광: 긴 거리 가능하지만 전력 & 복잡도 & 낮은 신뢰성이 문제 → AI 클러스터가 커지면서 초고속 링크(100-200+ Gbps)에서는 전통적인 기술이 확장성, 신뢰성, 전력 효율 3요소 모두 만족 불가 상황이 됨

    📌 Solution

    • Wide-and-Slow 구조: 수백 개의 병렬 저속 채널을 동시에 사용하는 새로운 아키텍처
    • MicroLED 광원: 저전력, 저비용, 고신뢰성의 microLED를 채택하고, 특수 광학/수신 설계로 광섬유에 효율적으로 결합
    • 프로토타입 성능: 100 채널 × 2 Gbps = 200 Gbps 이상 집적 가능, 최대 거리 ~50 m, 전력 소비 68% 감소, 신뢰성 100 × 향상 목표 보고됨
    • 기존 인프라 호환: 프로토콜-불문(Ethernet/CXL/PCIe 등) 물리계층 해결책으로 기존 네트워크와 쉽게 통합 가능함을 강조함.

    🧭 상용화 단계

    • 연구 수준 / 초도 프로토타입 단계. Microsoft는 성능 데모를 발표했으나 생산 준비된 칩/모듈로는 아직 아님.
    • 프로토타입물리 계층(PHY) 성능은 확인되었지만, ASIC/상업용 광섬유 계층과 맞춘 제품화는 진행 중.

    🧱 남은 허들

    • 제조/양산 기술: 수백 채널 microLED + 수신 CMOS 하이브리드의 제조 yield 및 비용
    • 커넥터/광섬유 표준: 현 데이터센터 광 인터커넥트 표준 (QSFP/DD)과의 물리적 호환성
    • 열/기계적 안정성: 대규모 채널과 장시간 운영 신뢰 보장
    • 운영체계/스위치 통합: 스위치 ASIC/네트워크 PHY와 완전한 인터페이스

    → 핵심 포인트: “물리적 링크의 트릴레마를 아키텍처로 깨는 실험적 혁신”이며 상용화까지는 수년이 필요.

     

    2) Falcon (Google et al.) – Hardware Transport for Datacenter Networks

    📌 Problem

    현재 데이터센터 네트워크에서:

    • 소프트웨어 스택 기반 전송(RoCE, TCP/IP) 은 CPU/호스트 의존도가 높고,
    • 혼잡 시 지연/오버헤드가 커져 AI/분산 시스템에서 성능 저하 발생.

    즉, 현대 워크로드는 단일 프로토콜(예: RDMA)만으로 해결되지 않는 매우 다양한 트래픽 패턴과 요구조건을 갖고 있음.

    📌 Solution

    • Falcon: 하드웨어가 전송 계층(logic) 자체를 가속/제어하는 하나의 통합 하드웨어 트랜스포트
      • 다중 상위 계층 프로토콜(ULP) 지원으로 RDMA, NVMe 등 다양한 패킷 흐름에 대응
      • 하드웨어 기반 혼잡 제어 & 재전송으로 소프트웨어 스택 대비 지연 최소화 & 안정성 향상
    • 성능 결과: 200 Gbps 피크, 종단 간 지연/혼잡 조건에서 기존 RoCE 대비
      • 최대 8 × 낮은 지연
      • 최대 65% 이상 높은 goodput을 달성하는 사례 보고됨

    🧭 상용화 단계

    • 리서치/프로토타입 Silicon 또는 FPGA 가속기 단계.
    • 아직 주류 스위치/서버 NIC 솔루션에 표준 네트워크 프로토콜로 대체되지는 않음.

    🧱 남은 허들

    • 상용 네트워크 스펙 통합: Ethernet/IP/IPv6 기반 패킷 포맷과 완전한 상호운용성 확보
    • 서버 NIC/Vendor 수용: Broadcom / NVIDIA / Intel 스위치와 표준화 노력
    • 호환성 및 보안: 다양한 OS/하이퍼바이저 환경에서 안정적 운용

    → 핵심 포인트: 네트워크 스택의 하드웨어 오프로딩은 “AI 스케일 통신”의 지연/혼잡 문제를 구조적으로 해결하지만, 스택 전면 교체는 표준 채택 레이트가 결정적.

     

    3) Meta MTIA v2 – AI Inference Accelerator

    📌 Problem

    • Meta의 광고/추천/랭킹 모델은 GPU로 실행할 경우 **TCO(총 소유비용)**가 높고, 메모리/대역폭이 병목이 됨.
    • GPU는 범용성이 높지만 특정 대규모 sparse/embedding 중심 추천 AI 워크로드에서는 효율성이 낮음.

    📌 Solution

    • AI 추론 특화 ASIC – MTIA v2 설계
      • 고 대역폭 메모리 + 온칩 대규모 메모리 구조
      • RISC-V 기반 요소 + 벡터 연산 통합
      • Meta 내부 모델 최적화 가능
    • Meta 보고: GPU 대비 일부 워크로드에서 약 44% 낮은 TCO 성능 제공, 메모리/대역폭 효율 개선됨

    🧭 상용화 단계

    • Meta 데이터센터 내 실제 운영 배포 중 (광고/추천 작업).
    • Ramps production & deployment through 2025, inference workloads 내 구축 중임

    🧱 남은 허들

    • 훈련(Training) 지원: 현재 MTIA v2는 주로 inference에 최적화 → 대규모 training 지원 미흡
    • 범용성 부족: Meta workload에 최적화되어 있어 외부 시장 확대는 제한적
    • 생태계/소프트웨어 스택 통합: PyTorch/XLA/ONNX 등 표준 도구 체인

    → 핵심 포인트: “실 사용 중인 커스텀 inference ASIC”로, 클라우드 서비스/대규모 inference 워크로드의 TCO 최적화 측면에서 의미 있는 상용 성공 사례.

     

    4) Co-Packaged Silicon Photonics (Industry Trend)

    📌 Problem

    데이터센터 AI 인프라의 전력 소비 + 신호 손실 + PCB trace 제한 문제:

    • **전통 광 트랜시버(pluggable)**는 전기-광 변환이 나뉘어 있어 신호 손실 & 전력 소비가 큼.
    • AI 워크로드가 800 Gbps 이상 링크를 요구할 때 전기 trace가 병목이 됨.

    📌 Solution

    • Co-Packaged Optics (CPO):
      • 광학 엔진을 스위치/ASIC 패키지 안쪽에 집적 → 전기 신호로 들어오는 구간 최소화
      • 실리콘 포토닉스 PIC + ASIC/칩렛 2.5D/3D 패키징
      • Broadcom/NVIDIA 등도 유사 솔루션 적용 계획 (Spectrum-X / Quantum-X).

    🧭 상용화 단계

    • 2026 시장 탑재 예측: 일부 고급 스위치/AI 네트워크 장비에서 2026~2027년 상용화가 전망됨.
      • NVIDIA는 Quantum-X & Spectrum-X Photonics 제품을 2026 출시 목표로 하고 있음 (업계 발표).

    🧱 남은 허들

    • 패키징 복잡성: 열/정렬/테스트 비용 증가
    • 제조 수율: PIC + ASIC 복합 빌드 yield
    • 생태계 표준화: UCIe·PCIe·Ethernet 상호운용성

    → 핵심 포인트: AI 인프라 “물리적 레이어 자체를 재정의,” 상용 채택이 곧 빠르게 진행될 것으로 예상됨.

     

    5) Nested Learning (Google Research, NeurIPS 2025)

    📌 Problem

    • 현재 대부분의 대형 언어 모델(LLM)은 훈련 후에는 정적이고, 새로운 지식을 지속해서 학습·통합하지 못함.
    • 이 때문에 새로운 데이터를 학습하면 기존 정보를 잃는 catastrophic forgetting(치명적 망각) 현상이 발생함 — 새로운 지식이 오래된 지식을 덮어쓰는 문제.
    • 단기/장기 기억 체계처럼 다양한 시간대 스케일을 다루지 못함.

    🧠 Solution

    • Nested Learning (중첩 학습):
      모델을 하나의 단일 블록으로 보는 대신, 여러 최적화 과제(optimization problem)를 내포한 연속된/병렬 구조로 본다. 각 레벨은 다른 *맥락 흐름(context flow)*과 갱신 빈도를 가진다.
    • 기본 아이디어는
      “아키텍처(구조)와 최적화(학습 알고리즘)를 하나의 연속적 시스템으로 보는 것” 학습 자체도 구조적 설계의 일부가 된다는 점.
    • 구체적으로:
      • Deep Optimizers: 기존 최적화 알고리즘(예: Adam, SGD)을 associative memory 관점으로 재해석해 더 표현력이 풍부한 옵티마이저 설계
      • Continuum Memory System (CMS): short-term ↔ long-term memory를 단순 분리하지 않고 *범위(continuum)*로 다루는 메모리 모듈
      • Hope Architecture: Proof-of-concept 아키텍처로, Nested Learning의 여러 레벨 최적화 및 CMS를 결합해 장기 기억과 긴 컨텍스트 유지 능력 향상을 시연함 

    📈 상용화 / 현황

    • 연구 단계 / Proof-of-Concept 수준
      Nested Learning은 NeurIPS 2025에서 발표된 개념 및 초기 아키텍처 HOPE에 대한 결과를 포함하는 연구 방향성이며, 아직 주요 프로덕트(클라우드 서비스나 대규모 상용 LLM)에 직접 통합되지는 않음.
    • Hope 같은 아키텍처는 논문 수준에서 평가됨 (perplexity/성능 향상함) 그러나 “대형 LLM 서비스에 탑재” 단계는 아님. 

    🧱 남은 허들

    1. 실제 대규모 모델 적용 난제: Nested Learning 구조는 기존 Transformer계열과 달리 복잡한 multi-level update 루프를 요구 → 효율성/병렬화 과제
    2. 하드웨어/컴파일러 최적화: CMS 및 multi-level 업데이트는 current GPU/TPU 메모리/연산 패턴과 최적화가 필요
    3. 일반화 및 안정성: 학습 루프가 자체적으로 갱신되는 구조적 성능 안정화 및 안전성 확보
    4. 표준 학습 플랫폼과 통합: PyTorch/TF 생태계와 DeepSpeed, FSDP 같은 분산 학습 스택 통합

     마지막에 추가로 물어본 Nest-Learning이라는 논문과 Titan이라는 구글 계열 논문은 'RAG의 종말'이라는 다소 자극적인 이름으로도 소개된다. RAG가 해결하던 문제를 모델 내부(memory + learning 구조)에서 해결하려는 시도이기 때문이다. RAG는 LLM이 최신 정보를 기억하지 못하고, 긴 문맥을 유지하지 못하며, 학습 이후 지식을 업데이트할 수 없다는 가정하에 나온 임시방편이다. RAG는 외부 벡터 DB에 지식을 두고, Inference마다 검색을 새로 하여, Context window에 합치는 방식이다. 검색 + embedding + DB + 네트워크 + LLM을 하는 파이프라인에서 비효율이 생기고, 대규모 서비스에선 latency/TCO 폭증한다. Google은 이 시스템이 비정상적이며, 궁극적으로는 모델이 모든 것을 직접 추론할 수 있어야 한다고 주장한다.

     RAG가 모두 대체되는 것은 아니고, 출처를 검하는 용도로 장기적으로 필요하며, 아직 Nest-Learning은 연구 단계로 안정성을 확보한 시스템이 서비스화되기까지는 시일이 필요해 보인다. 단, 단순히 RAG 및 벡터 DB화만 잘한다는 시스템들은 중장기적으로 영향을 받을 수 있을 것으로 보인다. Nest-Learning을 구현하는 과정에서 더 오래 기억하고, 더 자주 상호작용 (e.g., state update)을 하기 위해서는 메모리 풀을 늘리는 CXL과 네트워크 구조 혁신의 변화도 필요해 보인다.

     위에 소개된 논문 중에 CPO와 Mosaic는 최근에 가장 관심을 가지고 보는 AI DC Infrastructure와 관련된 주제이기 때문에, 논문을 뽑아서 조금 더 자세하게 공부할 예정이다.

     

    Conclusion

     오늘 논문 스터디를 종합하면, 2025년 내가 관심 있는 주요 AI·시스템 학회에서 나타난 공통된 흐름은 모델 성능이나 파라미터 경쟁이 아니라 AI가 더 오래, 더 자주, 더 자연스럽게 상호작용하기 위한 구조적 전환에 있다. Nested Learning, Titans, Mosaic 등은 대형 모델 하나로 모든 문제를 해결하려는 접근 대신, 상태(state)를 외부에 저장·업데이트하며 지속적으로 학습·추론하는 시스템적 AI를 핵심 문제로 제시한다. 이 변화는 연산(FLOPS) 중심의 병목을 메모리 접근, 데이터 이동, 네트워크 지연으로 이동시키며, GPU 중심 인프라의 한계를 명확히 드러낸다.

     그 결과 CXL 기반 메모리 풀링, 대용량 DRAM·HBM, SmartNIC 및 광 인터커넥트와 같은 메모리·통신 중심 인프라가 구조적 수혜 영역으로 부상하고 있다. RAG는 단기적으로 유효한 보완 수단이지만, stateful inference와 agent 기반 워크로드가 확산될수록 반복적 retrieval과 컨텍스트 확장이라는 근본적 한계가 드러날 가능성이 높다. 중장기적으로 AI 시스템의 경쟁력은 모델 크기보다 메모리 계층 설계, 데이터 일관성 관리, 저지연 네트워크를 포함한 시스템 통합 능력에서 결정될 것이다. VC 관점에서 향후 핵심 투자 기회는 개별 모델이나 알고리즘보다는, 이러한 변화된 AI 사용 패턴을 가능하게 하는 메모리, 인터커넥트, 시스템 반도체 및 인프라 소프트웨어 레이어 전반에 존재한다고 판단된다.

    --------------------------------------------------------------------------------------------------------------------

     관련 분야 산업계 분들 및 스타트업 관계자분들과의 커피챗이나 논의는 항상 환영입니다!

    댓글

Designed by Tistory.