DeepSeek V4 논문: 공식 보고서의 핵심 기술적 발견
DeepSeek은 2026년 4월 24일, 모델 가중치와 함께 DeepSeek V4의 완전한 기술 보고서를 공개했습니다. *「DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence」*라는 제목의 이 문서는 모델 아키텍처, 학습 방법론, 평가 결과를 망라한 포괄적인 학술 논문입니다.
이 글에서는 연구자, 엔지니어, 기술에 관심 있는 실무자를 위해 가장 중요한 기술적 발견을 정리합니다.
논문 개요
제목: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
저자: DeepSeek-AI
연도: 2026년
제공 위치: huggingface.co/deepseek-ai/DeepSeek-V4-Pro (저장소 파일 중 DeepSeek_V4.pdf)
이 논문은 V4 시리즈——DeepSeek-V4-Pro(1.6T / 활성 49B)와 DeepSeek-V4-Flash(284B / 활성 13B)——를 소개하고, 세 가지 주요 혁신을 상세히 설명합니다: 하이브리드 어텐션 아키텍처, mHC(다양체 구속 하이퍼 연결), 그리고 Muon 옵티마이저입니다.
발견 1: 100만 토큰 컨텍스트 문제와 해결책
논문의 핵심 기여는 100만 토큰 컨텍스트를 단순히 이론적으로 가능한 수준이 아니라 실용적으로 활용 가능하게 만든다는 과제를 해결한 것입니다.
문제점: 표준 어텐션 메커니즘은 시퀀스 길이에 따라 이차적으로 확장됩니다. 100만 토큰에서 표준 어텐션은 다음을 요구합니다:
- 토큰당 수십 배 이상의 연산량
- 현실적으로 감당하기 어려운 KV 캐시 메모리
해결책——하이브리드 어텐션 아키텍처: 두 가지 상호 보완적인 어텐션 메커니즘의 결합을 제안합니다:
압축 희소 어텐션(CSA):
- 토큰 단위 키-값 압축 적용
- 최근 및 관련 토큰의 높은 충실도 유지
- 중간 거리 컨텍스트의 어텐션 오버헤드 절감
고압축 어텐션(HCA):
- 매우 먼 거리의 토큰에 공격적인 압축 적용
- 먼 과거의 컴팩트한 표현 생성
- 최소한의 비용으로 매우 긴 범위를 '기억'할 수 있도록 지원
정량적 결과: 100만 토큰 컨텍스트 설정에서 V4-Pro는 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs의 27%, KV 캐시의 **10%**만을 요구합니다. 이것이 논문에서 가장 중요한 실용적 기여입니다.
발견 2: 다양체 구속 하이퍼 연결(mHC)
깊은 트랜스포머의 표준 잔차 연결은 네트워크 깊이가 증가함에 따라 그래디언트 저하 문제가 발생할 수 있습니다. 논문은 이를 해결하기 위해 mHC를 도입합니다.
혁신 내용: mHC는 가중치 업데이트를 리만 다양체——매끄러운 기하학적 공간——위에 제한합니다. 이를 통해:
- 레이어 간 신호 전파 강화
- 매우 깊은 네트워크에서 그래디언트 폭발/소실 방지
- 안정성을 높이면서 모델 표현력 보존
실용적 효과: mHC는 1.6조 파라미터에서 안정적인 학습을 가능하게 합니다. 이 안정성 향상 없이는 하이브리드 어텐션 아키텍처로 그 파라미터 수까지 확장하는 것이 훨씬 더 어려웠을 것입니다.
발견 3: Muon 옵티마이저
논문은 표준 AdamW 기반 학습을 대체하는 Muon 옵티마이저 도입에 대해 자세히 설명합니다.
Muon은 그래디언트 업데이트를 직교화함으로써——업데이트 방향 간의 상관관계를 제거함으로써——작동합니다:
- 그래디언트 스텝이 더 독립적으로 구성됨
- 수렴이 빨라짐: 모델이 학습 스텝마다 더 많이 습득
- 매우 대규모에서도 학습이 더 안정적
32T 이상의 다양한 토큰 사전 학습과 결합하여, Muon은 세계 지식, 코드, 수학, 과학, 다국어 텍스트에 걸쳐 강력한 커버리지를 갖춘 모델을 생성합니다.
발견 4: 2단계 사후 학습 파이프라인
논문의 더욱 독창적인 기여 중 하나는 사후 학습 방법론입니다:
1단계: 독립적 전문가 육성
- 각 MoE 전문가는 전문화 도메인에서 독립적으로 학습
- SFT(지도 미세 조정) + GRPO(그룹 상대 정책 최적화)를 이용한 RL 사용
- 각 전문가가 깊고 좁은 전문성 개발
2단계: 통합 모델 통합
- 온-정책 증류를 통해 다양한 전문가 전문성을 단일 모델로 통합
- 최종 모델은 별도의 모델 간 전환 없이 모든 도메인 전문성에 접근 가능
이 파이프라인은 V4-Pro가 매우 다양한 작업 유형에서 동시에 비정상적으로 높은 성능을 보이는 이유를 설명합니다——깊은 세계 지식 AND 최첨단 코딩 AND 긴 컨텍스트 검색.
발견 5: MoE 아키텍처 세부 사항
논문은 MoE 구현을 상세히 설명합니다:
V4-Pro 전문가 구성:
- 전체 전문가에 걸쳐 총 1.6T 파라미터
- 토큰당 49B 활성화
- 라우터가 학습된 라우팅 가중치를 사용하여 토큰별로 관련 전문가 선택
- 전문가 파라미터는 FP4 정밀도로 저장(대부분의 다른 가중치는 FP8)
V4-Flash:
- 총 284B / 활성 13B
- 동일한 아키텍처 혁신을 더 작은 규모에서 구현
- 동일한 FP4 + FP8 혼합 정밀도 방식 사용
논문은 V4-Flash가 V3.2(671B / 37B)보다 작음에도 불구하고 대부분의 벤치마크에서 비슷하거나 더 나은 성능을 달성함으로써 새 아키텍처의 효율성 향상을 증명한다고 지적합니다.
발견 6: 기본 모델 평가
논문은 광범위한 기본 모델(명령 튜닝 전) 벤치마크 결과를 제공하며, V4-Pro의 능력이 사전 학습에서 강하게 나타남을 확인합니다:
주요 기본 모델 결과(V4-Pro-Base vs V3.2-Base):
- MMLU: 90.1% vs 87.8% (+2.3pp)
- MMLU-Redux: 90.8% vs 87.5% (+3.3pp)
- Simple-QA 검증: 55.2% vs 28.3% (+26.9pp — 대폭 향상)
- HumanEval: 76.8% vs 62.8% (+14pp)
- LongBench-V2: 51.5% vs 40.2% (+11.3pp)
Simple-QA 검증 향상폭(+26.9pp)은 특히 주목할 만합니다——기본 모델 수준에서 세계 지식 기반의 근본적인 개선을 나타내고 있습니다.
발견 7: 3가지 추론 모드 시스템
논문은 3가지 추론 모드 프레임워크를 1등급 아키텍처 기능으로 도입합니다:
Non-think: 명시적인 사고 사슬 없이 직접 응답 생성
Think High: 예산화된 토큰 할당으로 제어된 사고 과정
Think Max: 특별 시스템 프롬프트를 사용한 확장 추론으로, 384K 이상의 컨텍스트 여유 공간 필요
논문은 Think Max가 어려운 추론 벤치마크에서 클로즈드 소스 최첨단 모델과의 격차를 크게 좁힌다는 것을 보여주며——파라미터 수뿐만 아니라 추론의 깊이가 복잡한 작업 성능의 핵심 결정 요인임을 시사합니다.
발견 8: 에이전틱 성능
논문은 DeepSeek의 에이전틱 기능에 대한 집중을 강조하며, 다음 분야에서 강력한 결과를 보고합니다:
- SWE-bench Verified: 80.6% (Gemini-3.1-Pro와 동등, Claude Opus 4.6에 근접)
- Terminal Bench 2.0: 67.9% (최고 오픈 모델과 경쟁)
- MCPAtlas: 73.6% (SOTA에 근접)
논문은 Claude Code, OpenClaw, OpenCode와의 통합을 1등급 지원 배포 환경으로 명시하고 있습니다.
인용
학술적 사용을 위한 인용:
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}
결론
DeepSeek V4 기술 보고서는 해당 분야를 진정으로 발전시키는 밀도 높고 수준 높은 학술 문서입니다. 핵심 기여인 하이브리드 어텐션(CSA + HCA), mHC, 2단계 사후 학습 파이프라인은 폭넓은 AI 연구 커뮤니티가 연구하고 발전시킬 수 있는 구체적이고 재현 가능한 혁신입니다. Framia.pro와 같이 최첨단 AI 모델을 활용하는 플랫폼은 이러한 논문에 기록된 아키텍처 발전으로부터 직접적인 혜택을 받으며, 에코시스템 전반에 걸쳐 성능 개선과 비용 절감을 이끌어냅니다.