DeepSeek V4 Paper: Die wichtigsten technischen Erkenntnisse aus dem offiziellen Bericht
DeepSeek hat am 24. April 2026 den vollständigen technischen Bericht zu DeepSeek V4 zusammen mit den Modellgewichten veröffentlicht. Unter dem Titel „DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence" handelt es sich um ein umfassendes akademisches Dokument, das Architektur, Trainingsmethodik und Evaluierungsergebnisse des Modells abdeckt.
Dieser Artikel fasst die wichtigsten technischen Erkenntnisse für Forscher, Ingenieure und technisch interessierte Praktiker zusammen.
Überblick über das Paper
Titel: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
Autoren: DeepSeek-AI
Jahr: 2026
Verfügbar unter: huggingface.co/deepseek-ai/DeepSeek-V4-Pro (im Repository als DeepSeek_V4.pdf)
Das Paper stellt die V4-Serie vor — DeepSeek-V4-Pro (1,6T / 49B aktiv) und DeepSeek-V4-Flash (284B / 13B aktiv) — und beschreibt drei wesentliche Innovationen: die Hybrid-Attention-Architektur, mHC (Manifold-Constrained Hyper-Connections) und den Muon-Optimizer.
Erkenntnis 1: Das 1-Millionen-Token-Kontextproblem und seine Lösung
Der zentrale Beitrag des Papers ist die Lösung der Herausforderung, einen Kontext mit einer Million Token praktisch nutzbar zu machen — nicht nur theoretisch.
Das Problem: Standardmäßige Attention-Mechanismen skalieren quadratisch mit der Sequenzlänge. Bei 1 Million Token würde Standard-Attention Folgendes erfordern:
- Einen um Größenordnungen höheren Rechenaufwand pro Token
- Unpraktisch großen KV-Cache-Speicher
Die Lösung — Hybrid-Attention-Architektur: Das Paper schlägt die Kombination zweier komplementärer Attention-Mechanismen vor:
Compressed Sparse Attention (CSA):
- Wendet tokenweise Schlüssel-Wert-Kompression an
- Erhält hohe Treue für aktuelle und relevante Token
- Reduziert den Attention-Overhead für mittelweit entfernten Kontext
Heavily Compressed Attention (HCA):
- Wendet aggressive Kompression auf sehr weit entfernte Token an
- Erstellt im Wesentlichen kompakte Repräsentationen der weit zurückliegenden Vergangenheit
- Ermöglicht es dem Modell, über sehr lange Horizonte zu „erinnern" — mit minimalem Aufwand
Quantifiziertes Ergebnis: Im 1-Millionen-Token-Kontext benötigt V4-Pro nur 27 % der Single-Token-Inference-FLOPs und 10 % des KV-Caches im Vergleich zu DeepSeek-V3.2. Dies ist der bedeutendste praktische Beitrag des Papers.
Erkenntnis 2: Manifold-Constrained Hyper-Connections (mHC)
Standardmäßige Residualverbindungen in tiefen Transformern können bei zunehmender Netzwerktiefe unter Gradientenabbau leiden. Das Paper führt mHC ein, um diesem Problem zu begegnen.
Die Innovation: mHC beschränkt Gewichtsaktualisierungen auf eine Riemannsche Mannigfaltigkeit — einen glatten geometrischen Raum. Dies:
- Stärkt die Signalausbreitung über Schichten hinweg
- Verhindert das Explodieren/Verschwinden von Gradienten in sehr tiefen Netzwerken
- Bewahrt die Modellausdruckskraft bei verbesserter Stabilität
Praktischer Effekt: mHC ermöglicht zuverlässiges Training bei 1,6 Billionen Parametern. Ohne diese Stabilitätsverbesserung wäre das Skalieren auf diese Parameteranzahl mit der Hybrid-Attention-Architektur erheblich schwieriger.
Erkenntnis 3: Der Muon-Optimizer
Das Paper beschreibt die Einführung des Muon-Optimizers als Ersatz für das standardmäßige AdamW-basierte Training.
Muon arbeitet durch Orthogonalisierung von Gradientenaktualisierungen — indem Korrelationen zwischen Aktualisierungsrichtungen entfernt werden:
- Gradientenschritte werden unabhängiger voneinander
- Die Konvergenz wird schneller: Das Modell lernt mehr pro Trainingsschritt
- Das Training ist stabiler bei sehr großem Maßstab
In Kombination mit Vortraining auf mehr als 32T vielfältigen Token erzeugt Muon Modelle mit starker Abdeckung in Weltwissen, Code, Mathematik, Wissenschaft und mehrsprachigem Text.
Erkenntnis 4: Zweistufige Post-Training-Pipeline
Einer der neuartigeren Beiträge des Papers ist die Post-Training-Methodik:
Stufe 1: Unabhängige Expertenentwicklung
- Jeder MoE-Experte wird unabhängig in seinem Spezialisierungsbereich trainiert
- Verwendet SFT (Supervised Fine-Tuning) + RL mit GRPO (Group Relative Policy Optimization)
- Jeder Experte entwickelt tiefe, enge Fachkompetenz
Stufe 2: Vereinheitlichung des Modells
- On-Policy-Destillation integriert die vielfältigen Expertenkenntnisse in ein einziges Modell
- Das Endmodell hat Zugriff auf alle Domänenkenntnisse, ohne zwischen separaten Modellen wechseln zu müssen
Diese Pipeline erklärt, warum V4-Pro gleichzeitig ungewöhnlich starke Leistungen über sehr unterschiedliche Aufgabentypen zeigt — tiefes Weltwissen UND fortgeschrittenes Codieren UND Langkontext-Retrieval.
Erkenntnis 5: Details zur MoE-Architektur
Das Paper beschreibt die MoE-Implementierung im Detail:
V4-Pro Expertenkonfiguration:
- 1,6T Gesamtparameter über alle Experten
- 49B pro Token aktiviert
- Der Router wählt mithilfe erlernter Routing-Gewichte relevante Experten pro Token aus
- Expertenparameter in FP4-Präzision gespeichert (die meisten anderen Gewichte in FP8)
V4-Flash:
- 284B gesamt / 13B aktiv
- Gleiche Architekturinnovationen, aber in kleinerem Maßstab
- Verwendet dasselbe FP4 + FP8 Mixed-Precision-Schema
Das Paper merkt an, dass V4-Flash trotz seiner geringeren Größe als V3.2 (671B / 37B) auf den meisten Benchmarks vergleichbare oder bessere Leistung erzielt — und damit die Effizienzgewinne der neuen Architektur unter Beweis stellt.
Erkenntnis 6: Evaluation des Basismodells
Das Paper liefert umfangreiche Benchmark-Ergebnisse für das Basismodell (vor dem Instruction Tuning) und belegt, dass die Fähigkeiten von V4-Pro stark aus dem Vortraining hervorgehen:
Wichtige Basismodellergebnisse (V4-Pro-Base vs. V3.2-Base):
- MMLU: 90,1 % vs. 87,8 % (+2,3 pp)
- MMLU-Redux: 90,8 % vs. 87,5 % (+3,3 pp)
- Simple-QA verifiziert: 55,2 % vs. 28,3 % (+26,9 pp — massiver Sprung)
- HumanEval: 76,8 % vs. 62,8 % (+14 pp)
- LongBench-V2: 51,5 % vs. 40,2 % (+11,3 pp)
Der Simple-QA-Sprung (+26,9 pp) ist besonders bemerkenswert — er deutet auf grundlegende Verbesserungen in der Weltwissensverankerung auf Basismodellebene hin.
Erkenntnis 7: Drei-Modus-Inferenzsystem
Das Paper führt das Drei-Modus-Reasoning-Framework als erstklassiges Architekturmerkmal ein:
Non-think: Das Modell generiert direkte Antworten ohne explizite Gedankenkette
Think High: Ein kontrollierter Denkprozess mit budgetierter Token-Zuweisung
Think Max: Erweitertes Reasoning mit einem speziellen System-Prompt, das einen Kontext-Headroom von 384K+ Token erfordert
Das Paper zeigt, dass Think Max die Lücke zu Closed-Source-Frontier-Modellen bei anspruchsvollen Reasoning-Benchmarks deutlich verkleinert — was darauf hindeutet, dass Reasoning-Tiefe, nicht nur die Parameteranzahl, ein entscheidender Leistungsfaktor bei komplexen Aufgaben ist.
Erkenntnis 8: Agentische Leistung
Das Paper betont DeepSeeks Fokus auf agentische Fähigkeiten und berichtet von starken Ergebnissen bei:
- SWE-bench Verified: 80,6 % (entspricht Gemini-3.1-Pro, kommt Claude Opus 4.6 nahe)
- Terminal Bench 2.0: 67,9 % (wettbewerbsfähig mit den besten offenen Modellen)
- MCPAtlas: 73,6 % (nahe SOTA)
Das Paper vermerkt auch die Integration mit Claude Code, OpenClaw und OpenCode als erstklassig unterstützte Deployment-Umgebungen.
Zitierung
Für akademische Zwecke:
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}
Fazit
Der technische Bericht von DeepSeek V4 ist ein dichtes, hochwertiges akademisches Dokument, das das Fachgebiet wirklich voranbringt. Die Kernbeiträge — Hybrid Attention (CSA + HCA), mHC und die zweistufige Post-Training-Pipeline — sind konkrete, reproduzierbare Innovationen, die die breitere KI-Forschungsgemeinschaft studieren und darauf aufbauen kann. Plattformen wie Framia.pro, die Frontier-KI-Modelle nutzen, profitieren direkt von den in solchen Papern dokumentierten Architekturfortschritten, die sowohl Leistungsverbesserungen als auch Kostensenkungen im gesamten Ökosystem vorantreiben.