DeepSeek V4 모델 아키텍처: 하이브리드 어텐션, mHC, MoE 완전 해설

DeepSeek V4는 하이브리드 어텐션(CSA+HCA), 다양체 제약 하이퍼 연결(mHC), Muon 옵티마이저를 도입했습니다. 각 혁신이 실제로 무엇을 하는지 알아봅니다.

by Framia

DeepSeek V4 모델 아키텍처: 하이브리드 어텐션, mHC, MoE 완전 해설

DeepSeek V4는 단순히 V3의 더 큰 버전이 아닙니다. 특히 긴 컨텍스트 작업에서 효율성을 극적으로 향상시키는 근본적인 아키텍처 변경 사항을 도입했습니다. DeepSeek V4가 기본으로 100만 개의 토큰을 처리할 수 있는 이유, 그리고 이전 모델보다 훨씬 적은 컴퓨팅으로 이를 구현하는 방법을 이해하고 싶다면, 이 가이드에서 모든 주요 혁신을 살펴보겠습니다.


개요: 네 가지 핵심 아키텍처 기둥

  1. Mixture of Experts (MoE) — 컴퓨팅 효율을 위한 희소 활성화
  2. 하이브리드 어텐션 아키텍처 (CSA + HCA) — 100만 토큰 효율성의 핵심
  3. 다양체 제약 하이퍼 연결 (mHC) — 안정적인 신호 전파
  4. Muon 옵티마이저 — 더 빠르고 안정적인 학습

각각을 자세히 살펴보겠습니다.


1. Mixture of Experts (MoE)

DeepSeek V4는 Pro (1.6T / 49B 활성) 및 Flash (284B / 13B 활성) 변형 모두에 MoE 아키텍처를 사용합니다. MoE는 모델의 피드포워드 레이어를 많은 전문화된 "전문가"로 분할하고, 학습 가능한 라우터가 각 토큰에 가장 관련성 높은 전문가를 선택하는 방식으로 작동합니다.

중요한 이유: 수천억 또는 수조 개의 매개변수를 가진 모델의 지식 용량을 얻으면서도, 토큰당 그 중 소수만 활성화합니다. 추론 비용은 총 매개변수가 아닌 활성 매개변수로 확장되므로, MoE는 동등한 밀집 모델보다 컴퓨팅 효율이 훨씬 높습니다.

DeepSeek의 사후 학습 파이프라인은 독특한 2단계 접근 방식을 추가합니다:

  • 1단계: SFT 및 GRPO를 통한 RL로 독립적인 전문가 전문화
  • 2단계: 온폴리시 증류를 통한 통합 모델 통합 — 모든 전문 지식을 단일 일관된 모델로 병합

2. 하이브리드 어텐션 아키텍처: CSA + HCA

이것이 DeepSeek V4의 가장 중요한 혁신이며, 100만 토큰이 이제 기본 컨텍스트 길이가 된 이유입니다.

긴 컨텍스트에서 표준 어텐션의 문제

표준 트랜스포머 어텐션은 시퀀스 길이에 대해 이차적으로 확장됩니다. 100만 토큰의 경우 천문학적인 양의 메모리(KV 캐시)와 컴퓨팅이 필요하여 비실용적입니다.

DeepSeek의 해결책: 두 가지 보완적인 어텐션 메커니즘

압축 희소 어텐션 (CSA)

  • 토큰별 압축을 적용하여 저장하고 검색해야 하는 키-값 쌍의 수를 줄임
  • 전체 시퀀스를 전체 해상도로 저장하지 않고도 먼 컨텍스트에 효율적으로 접근할 수 있도록 함

강력 압축 어텐션 (HCA)

  • 더 나아가 현재 위치에서 매우 멀리 있는 토큰에 공격적인 압축을 적용
  • 본질적으로 모델에게 이렇게 말합니다: "역사에서 멀리 있는 토큰의 경우, 고도로 압축된 요약을 저장하세요 — 모든 세부 사항을 기억하려 하지 마세요"

CSA와 HCA를 함께 사용하면 계층적 메모리 시스템이 생성됩니다: 최근 토큰은 완전한 어텐션을, 약간 먼 토큰은 압축된 어텐션을, 매우 먼 토큰은 강력하게 압축된 어텐션을 받습니다. 이는 인간의 작업 기억이 실제로 작동하는 방식을 반영합니다.

결과: 놀라운 효율성 향상

100만 토큰 컨텍스트 시나리오에서:

  • V4-Pro는 V3.2 대비 단일 토큰 추론 FLOP의 27%만 필요
  • V4-Pro는 V3.2 대비 KV 캐시 메모리의 10%만 필요

이는 컴퓨팅이 약 3.7배, 메모리가 10배 감소한 것으로, V3.2에서는 불가능했을 하드웨어에서 100만 토큰 컨텍스트를 가능하게 합니다.


3. 다양체 제약 하이퍼 연결 (mHC)

모델이 수백 개의 레이어에 걸쳐 수조 개의 매개변수로 확장됨에 따라, 일반적인 실패 모드는 기울기 저하입니다 — 신호가 너무 약하거나 너무 노이즈가 많아 심층 네트워크를 통해 효과적으로 전파되지 못합니다.

DeepSeek의 해결책은 **mHC(다양체 제약 하이퍼 연결)**입니다. 이는 가중치 업데이트를 리만 다양체 위에 제한함으로써 기존 잔차 연결을 향상시킵니다. 쉽게 말하면, mHC는:

  • 트랜스포머 레이어 간의 잔차 경로를 강화
  • 네트워크의 깊이를 통해 신호가 흐르는 방식을 안정화
  • 기울기 폭발이나 소멸을 방지하면서 모델 표현력을 보존

실질적인 효과: 1.6T 매개변수 V4-Pro는 다른 대부분의 아키텍처를 불안정하게 만들 규모에서도 안정적으로 학습될 수 있습니다.


4. Muon 옵티마이저

DeepSeek V4는 표준 AdamW 옵티마이저를 Muon 옵티마이저(Momentum + Orthogonalization의 약자)로 교체합니다. Muon은:

  • 기울기 업데이트에 직교화 단계를 적용하여 상관 방향을 따른 중복 업데이트 방지
  • 더 빠른 수렴 달성 — 모델이 각 학습 단계에서 더 많이 학습
  • 더 높은 학습 안정성 제공 — 32T+ 토큰 사전 학습 규모에서 특히 중요

V4-Pro와 V4-Flash 모두 Muon을 사용하여 32조 개 이상의 다양하고 고품질의 토큰으로 사전 학습되어, 세계 지식, 코드, 수학 및 다국어 텍스트에 대한 탁월한 범위를 제공합니다.


세 가지 추론 노력 모드: 아키텍처와 추론의 만남

이 아키텍처는 유연한 3가지 모드 추론 시스템을 가능하게 합니다:

모드 동작 사용 사례
Non-think 명시적 사고 연쇄 없음 빠른 쿼리, 간단한 작업
Think High 제어된 사고 연쇄 복잡한 추론, 계획 수립
Think Max 확장된 철저한 추론 수학 경시, 최첨단 코딩

Think Max가 잘 작동하려면 최소 384K 토큰 컨텍스트 창이 필요합니다. 이는 V4의 100만 토큰 한도 내에서 쉽게 사용 가능합니다.


DeepSeek V3.2 아키텍처와의 비교

DeepSeek-V3.2는 총 671B / 37B 활성 매개변수와 다른 어텐션 방식을 사용했습니다. V4로 이동하면서:

  • 총 매개변수가 거의 3배 증가 (671B → Pro의 경우 1.6T)
  • 활성 매개변수가 37B → 49B로 증가
  • 100만 토큰 컨텍스트의 KV 캐시 10배 감소
  • 토큰당 컴퓨팅 약 73% 감소
  • 새로운 옵티마이저 (Muon vs. AdamW 변형)
  • 새로운 학습 파이프라인 (2단계 전문가 통합)

대규모로 AI 에이전트를 구동하는 Framia.pro와 같은 플랫폼에서 이러한 아키텍처 효율성 개선은 비용 절감, 더 빠른 응답, 더 강력한 창의적 워크플로우로 직접 이어집니다.


결론

DeepSeek V4의 아키텍처는 MoE 희소성, 하이브리드 어텐션 압축, 다양체 제약 잔차 연결, 고급 옵티마이저의 신중하게 설계된 조합입니다. 이러한 혁신들이 함께 100만 토큰 컨텍스트를 이론적으로 가능할 뿐만 아니라 실질적인 기본값으로 만들어 — 전 세계 개발자, 연구자, 기업이 접근할 수 있는 비용으로 실현합니다.