DeepSeek V4 Paper: Wichtigste technische Erkenntnisse erklärt (2026)

Zusammenfassung des DeepSeek V4 technischen Berichts: Hybrid Attention (CSA+HCA), mHC, Muon-Optimizer, zweistufiges Post-Training und die wichtigsten Benchmark-Ergebnisse im Überblick.

DeepSeek V4 Paper: Die wichtigsten technischen Erkenntnisse aus dem offiziellen Bericht

DeepSeek hat am 24. April 2026 den vollständigen technischen Bericht zu DeepSeek V4 zusammen mit den Modellgewichten veröffentlicht. Unter dem Titel „DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence" handelt es sich um ein umfassendes akademisches Dokument, das Architektur, Trainingsmethodik und Evaluierungsergebnisse des Modells abdeckt.

Dieser Artikel fasst die wichtigsten technischen Erkenntnisse für Forscher, Ingenieure und technisch interessierte Praktiker zusammen.

Überblick über das Paper

Titel: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
Autoren: DeepSeek-AI
Jahr: 2026
Verfügbar unter: huggingface.co/deepseek-ai/DeepSeek-V4-Pro (im Repository als DeepSeek_V4.pdf)

Das Paper stellt die V4-Serie vor — DeepSeek-V4-Pro (1,6T / 49B aktiv) und DeepSeek-V4-Flash (284B / 13B aktiv) — und beschreibt drei wesentliche Innovationen: die Hybrid-Attention-Architektur, mHC (Manifold-Constrained Hyper-Connections) und den Muon-Optimizer.

Erkenntnis 1: Das 1-Millionen-Token-Kontextproblem und seine Lösung

Der zentrale Beitrag des Papers ist die Lösung der Herausforderung, einen Kontext mit einer Million Token praktisch nutzbar zu machen — nicht nur theoretisch.

Das Problem: Standardmäßige Attention-Mechanismen skalieren quadratisch mit der Sequenzlänge. Bei 1 Million Token würde Standard-Attention Folgendes erfordern:

Einen um Größenordnungen höheren Rechenaufwand pro Token
Unpraktisch großen KV-Cache-Speicher

Die Lösung — Hybrid-Attention-Architektur: Das Paper schlägt die Kombination zweier komplementärer Attention-Mechanismen vor:

Compressed Sparse Attention (CSA):

Wendet tokenweise Schlüssel-Wert-Kompression an
Erhält hohe Treue für aktuelle und relevante Token
Reduziert den Attention-Overhead für mittelweit entfernten Kontext

Heavily Compressed Attention (HCA):

Wendet aggressive Kompression auf sehr weit entfernte Token an
Erstellt im Wesentlichen kompakte Repräsentationen der weit zurückliegenden Vergangenheit
Ermöglicht es dem Modell, über sehr lange Horizonte zu „erinnern" — mit minimalem Aufwand

Quantifiziertes Ergebnis: Im 1-Millionen-Token-Kontext benötigt V4-Pro nur 27 % der Single-Token-Inference-FLOPs und 10 % des KV-Caches im Vergleich zu DeepSeek-V3.2. Dies ist der bedeutendste praktische Beitrag des Papers.

Erkenntnis 2: Manifold-Constrained Hyper-Connections (mHC)

Standardmäßige Residualverbindungen in tiefen Transformern können bei zunehmender Netzwerktiefe unter Gradientenabbau leiden. Das Paper führt mHC ein, um diesem Problem zu begegnen.

Die Innovation: mHC beschränkt Gewichtsaktualisierungen auf eine Riemannsche Mannigfaltigkeit — einen glatten geometrischen Raum. Dies:

Stärkt die Signalausbreitung über Schichten hinweg
Verhindert das Explodieren/Verschwinden von Gradienten in sehr tiefen Netzwerken
Bewahrt die Modellausdruckskraft bei verbesserter Stabilität

Praktischer Effekt: mHC ermöglicht zuverlässiges Training bei 1,6 Billionen Parametern. Ohne diese Stabilitätsverbesserung wäre das Skalieren auf diese Parameteranzahl mit der Hybrid-Attention-Architektur erheblich schwieriger.

Erkenntnis 3: Der Muon-Optimizer

Das Paper beschreibt die Einführung des Muon-Optimizers als Ersatz für das standardmäßige AdamW-basierte Training.

Muon arbeitet durch Orthogonalisierung von Gradientenaktualisierungen — indem Korrelationen zwischen Aktualisierungsrichtungen entfernt werden:

Gradientenschritte werden unabhängiger voneinander
Die Konvergenz wird schneller: Das Modell lernt mehr pro Trainingsschritt
Das Training ist stabiler bei sehr großem Maßstab

In Kombination mit Vortraining auf mehr als 32T vielfältigen Token erzeugt Muon Modelle mit starker Abdeckung in Weltwissen, Code, Mathematik, Wissenschaft und mehrsprachigem Text.

Erkenntnis 4: Zweistufige Post-Training-Pipeline

Einer der neuartigeren Beiträge des Papers ist die Post-Training-Methodik:

Stufe 1: Unabhängige Expertenentwicklung

Jeder MoE-Experte wird unabhängig in seinem Spezialisierungsbereich trainiert
Verwendet SFT (Supervised Fine-Tuning) + RL mit GRPO (Group Relative Policy Optimization)
Jeder Experte entwickelt tiefe, enge Fachkompetenz

Stufe 2: Vereinheitlichung des Modells

On-Policy-Destillation integriert die vielfältigen Expertenkenntnisse in ein einziges Modell
Das Endmodell hat Zugriff auf alle Domänenkenntnisse, ohne zwischen separaten Modellen wechseln zu müssen

Diese Pipeline erklärt, warum V4-Pro gleichzeitig ungewöhnlich starke Leistungen über sehr unterschiedliche Aufgabentypen zeigt — tiefes Weltwissen UND fortgeschrittenes Codieren UND Langkontext-Retrieval.

Erkenntnis 5: Details zur MoE-Architektur

Das Paper beschreibt die MoE-Implementierung im Detail:

V4-Pro Expertenkonfiguration:

1,6T Gesamtparameter über alle Experten
49B pro Token aktiviert
Der Router wählt mithilfe erlernter Routing-Gewichte relevante Experten pro Token aus
Expertenparameter in FP4-Präzision gespeichert (die meisten anderen Gewichte in FP8)

V4-Flash:

284B gesamt / 13B aktiv
Gleiche Architekturinnovationen, aber in kleinerem Maßstab
Verwendet dasselbe FP4 + FP8 Mixed-Precision-Schema

Das Paper merkt an, dass V4-Flash trotz seiner geringeren Größe als V3.2 (671B / 37B) auf den meisten Benchmarks vergleichbare oder bessere Leistung erzielt — und damit die Effizienzgewinne der neuen Architektur unter Beweis stellt.

Erkenntnis 6: Evaluation des Basismodells

Das Paper liefert umfangreiche Benchmark-Ergebnisse für das Basismodell (vor dem Instruction Tuning) und belegt, dass die Fähigkeiten von V4-Pro stark aus dem Vortraining hervorgehen:

Wichtige Basismodellergebnisse (V4-Pro-Base vs. V3.2-Base):

MMLU: 90,1 % vs. 87,8 % (+2,3 pp)
MMLU-Redux: 90,8 % vs. 87,5 % (+3,3 pp)
Simple-QA verifiziert: 55,2 % vs. 28,3 % (+26,9 pp — massiver Sprung)
HumanEval: 76,8 % vs. 62,8 % (+14 pp)
LongBench-V2: 51,5 % vs. 40,2 % (+11,3 pp)

Der Simple-QA-Sprung (+26,9 pp) ist besonders bemerkenswert — er deutet auf grundlegende Verbesserungen in der Weltwissensverankerung auf Basismodellebene hin.

Erkenntnis 7: Drei-Modus-Inferenzsystem

Das Paper führt das Drei-Modus-Reasoning-Framework als erstklassiges Architekturmerkmal ein:

Non-think: Das Modell generiert direkte Antworten ohne explizite Gedankenkette
Think High: Ein kontrollierter Denkprozess mit budgetierter Token-Zuweisung
Think Max: Erweitertes Reasoning mit einem speziellen System-Prompt, das einen Kontext-Headroom von 384K+ Token erfordert

Das Paper zeigt, dass Think Max die Lücke zu Closed-Source-Frontier-Modellen bei anspruchsvollen Reasoning-Benchmarks deutlich verkleinert — was darauf hindeutet, dass Reasoning-Tiefe, nicht nur die Parameteranzahl, ein entscheidender Leistungsfaktor bei komplexen Aufgaben ist.

Erkenntnis 8: Agentische Leistung

Das Paper betont DeepSeeks Fokus auf agentische Fähigkeiten und berichtet von starken Ergebnissen bei:

SWE-bench Verified: 80,6 % (entspricht Gemini-3.1-Pro, kommt Claude Opus 4.6 nahe)
Terminal Bench 2.0: 67,9 % (wettbewerbsfähig mit den besten offenen Modellen)
MCPAtlas: 73,6 % (nahe SOTA)

Das Paper vermerkt auch die Integration mit Claude Code, OpenClaw und OpenCode als erstklassig unterstützte Deployment-Umgebungen.

Zitierung

Für akademische Zwecke:

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}

Fazit

Der technische Bericht von DeepSeek V4 ist ein dichtes, hochwertiges akademisches Dokument, das das Fachgebiet wirklich voranbringt. Die Kernbeiträge — Hybrid Attention (CSA + HCA), mHC und die zweistufige Post-Training-Pipeline — sind konkrete, reproduzierbare Innovationen, die die breitere KI-Forschungsgemeinschaft studieren und darauf aufbauen kann. Plattformen wie Framia.pro, die Frontier-KI-Modelle nutzen, profitieren direkt von den in solchen Papern dokumentierten Architekturfortschritten, die sowohl Leistungsverbesserungen als auch Kostensenkungen im gesamten Ökosystem vorantreiben.