DeepSeek V4 Architektur: CSA, HCA, mHC und MoE im Detail erklärt

DeepSeek V4 kombiniert Hybrid Attention (CSA + HCA), Manifold-Constrained Hyper-Connections und den Muon-Optimizer. Was jede Innovation wirklich bewirkt – verständlich erklärt.

DeepSeek V4 Modellarchitektur: Hybrid Attention, mHC und MoE erklärt

DeepSeek V4 ist nicht einfach eine größere Version von V3. Es bringt grundlegende Architekturänderungen mit, die die Effizienz dramatisch verbessern – besonders bei langen Kontexten. Wenn Sie verstehen möchten, warum DeepSeek V4 standardmäßig 1 Million Token verarbeiten kann – und das mit weit weniger Rechenaufwand als alle Vorgängermodelle – führt dieser Leitfaden Sie durch jede wichtige Innovation.

Überblick: Vier zentrale Architekturpfeiler

Mixture of Experts (MoE) — Sparse Activation für Recheneffizienz
Hybrid Attention Architektur (CSA + HCA) — Der Schlüssel zur 1M-Token-Effizienz
Manifold-Constrained Hyper-Connections (mHC) — Stabile Signalübertragung
Muon-Optimizer — Schnelleres, stabileres Training

Schauen wir uns jede davon genauer an.

1. Mixture of Experts (MoE)

DeepSeek V4 nutzt eine MoE-Architektur sowohl in der Pro-Variante (1,6T / 49B aktiv) als auch in der Flash-Variante (284B / 13B aktiv). MoE funktioniert, indem die Feed-Forward-Schichten des Modells in viele spezialisierte „Experten" aufgeteilt werden, wobei ein trainierbarer Router die relevantesten Experten für jedes Token auswählt.

Warum das wichtig ist: Man erhält die Wissenskapazität eines Modells mit Hunderten von Milliarden oder Billionen Parametern, aktiviert aber pro Token nur einen kleinen Teil davon. Die Inferenzkosten skalieren mit den aktiven Parametern, nicht mit den Gesamtparametern – was MoE gegenüber gleichwertigen dichten Modellen deutlich recheneffizienter macht.

DeepSeeks Post-Training-Pipeline fügt einen charakteristischen zweistufigen Ansatz hinzu:

Stufe 1: Unabhängige Expertenspezialisierung mittels SFT und RL mit GRPO
Stufe 2: Konsolidierung des einheitlichen Modells per On-Policy-Distillation – alle speziellen Expertisen werden in einem kohärenten Modell vereint

2. Hybrid Attention Architektur: CSA + HCA

Dies ist DeepSeek V4s bedeutendste Innovation und der Grund, warum 1 Million Token nun die Standard-Kontextlänge ist.

Das Problem mit Standard-Attention bei langen Kontexten

Standard-Transformer-Attention (wie in älteren Modellen) skaliert quadratisch mit der Sequenzlänge. Bei 1 Million Token würde dies eine astronomische Menge an Speicher (KV-Cache) und Rechenleistung erfordern – und damit unpraktikabel werden.

DeepSeeks Lösung: Zwei komplementäre Attention-Mechanismen

Compressed Sparse Attention (CSA)

Wendet tokenweise Kompression an und reduziert die Anzahl der Key-Value-Paare, die gespeichert und abgerufen werden müssen
Ermöglicht dem Modell effizienten Zugriff auf entfernten Kontext, ohne die gesamte Sequenz in voller Auflösung speichern zu müssen

Heavily Compressed Attention (HCA)

Geht noch weiter und wendet aggressive Kompression auf Token an, die sich sehr weit von der aktuellen Position entfernt befinden
Teilt dem Modell im Wesentlichen mit: „Für weit zurückliegende Token speichere eine stark komprimierte Zusammenfassung – versuche nicht, jedes Detail zu behalten"

Zusammen schaffen CSA und HCA ein gestuftes Speichersystem: Aktuelle Token erhalten volle Attention, etwas entferntere Token erhalten komprimierte Attention, und sehr weit entfernte Token erhalten stark komprimierte Attention. Dies spiegelt wider, wie das menschliche Arbeitsgedächtnis tatsächlich funktioniert.

Das Ergebnis: Spektakuläre Effizienzgewinne

In einem 1M-Token-Kontextszenario:

V4-Pro benötigt nur 27 % der Single-Token-Inferenz-FLOPs gegenüber V3.2
V4-Pro benötigt nur 10 % des KV-Cache-Speichers gegenüber V3.2

Das entspricht etwa einer 3,7-fachen Reduzierung des Rechenaufwands und einer 10-fachen Reduzierung des Speichers – und ermöglicht so einen 1M-Token-Kontext auf Hardware, die für V3.2 unmöglich gewesen wäre.

3. Manifold-Constrained Hyper-Connections (mHC)

Wenn Modelle auf Billionen von Parametern über Hunderte von Schichten skalieren, tritt häufig Gradientendegradation als Fehlermuster auf – Signale werden zu schwach oder zu verrauscht, um sich effektiv durch tiefe Netzwerke zu propagieren.

DeepSeeks Lösung ist mHC (Manifold-Constrained Hyper-Connections), das konventionelle Residualverbindungen verbessert, indem Gewichtaktualisierungen auf eine Riemannsche Mannigfaltigkeit beschränkt werden. Einfach ausgedrückt:

Stärkt den Residualpfad zwischen Transformer-Schichten
Stabilisiert den Signalfluss durch die Tiefe des Netzwerks
Bewahrt die Modellausdrucksstärke, während Gradientenexplosion oder -verschwinden verhindert wird

Der praktische Effekt: Das 1,6T-Parameter-Modell V4-Pro kann zuverlässig in einem Maßstab trainiert werden, der die meisten anderen Architekturen destabilisieren würde.

4. Muon-Optimizer

DeepSeek V4 ersetzt den Standard-AdamW-Optimizer durch den Muon-Optimizer (kurz für Momentum + Orthogonalisierung). Muon:

Wendet einen Orthogonalisierungsschritt auf die Gradientenaktualisierungen an und verhindert so redundante Aktualisierungen entlang korrelierter Richtungen
Erreicht schnellere Konvergenz – das Modell lernt aus jedem Trainingsschritt mehr
Bietet größere Trainingsstabilität – besonders wichtig bei der Vortraining-Skala von über 32T Token

Sowohl V4-Pro als auch V4-Flash wurden mit Muon auf mehr als 32 Billionen vielfältigen, hochwertigen Token vortrainiert, was den Modellen eine außergewöhnliche Abdeckung von Weltwissen, Code, Mathematik und mehrsprachigem Text verleiht.

Drei Inferenz-Modi: Architektur trifft auf Inferenz

Die Architektur ermöglicht ein flexibles dreimodiges Inferenzsystem:

Modus	Verhalten	Anwendungsfall
Non-think	Kein expliziter Gedankengang	Schnelle Abfragen, einfache Aufgaben
Think High	Gesteuerter Gedankengang	Komplexes Schlussfolgern, Planung
Think Max	Erweitertes, erschöpfendes Schlussfolgern	Mathematik-Wettbewerbe, Frontier-Coding

Think Max erfordert mindestens ein 384K-Token-Kontextfenster für gute Ergebnisse (das Modell braucht Platz für seine vollständige Schlussfolgerungsspur). Das ist innerhalb von V4s 1M-Token-Limit problemlos verfügbar.

Vergleich mit DeepSeek V3.2s Architektur

DeepSeek-V3.2 verwendete 671B Gesamtparameter / 37B aktive Parameter und ein anderes Attention-Schema. Mit dem Wechsel zu V4:

Gesamtparameter fast verdreifacht (671B → 1,6T für Pro)
Aktive Parameter stiegen von 37B → 49B
KV-Cache für 1M-Token-Kontext um das 10-Fache reduziert
Rechenaufwand pro Token um ~73 % reduziert
Neuer Optimizer (Muon vs. AdamW-Variante)
Neue Trainings-Pipeline (zweistufige Expertenkonsolidierung)

Für Plattformen wie Framia.pro, die KI-Agenten in großem Maßstab betreiben, übersetzen sich solche architektonischen Effizienzverbesserungen direkt in niedrigere Kosten, schnellere Antworten und leistungsfähigere kreative Workflows.

Fazit

DeepSeek V4s Architektur ist eine sorgfältig konstruierte Kombination aus MoE-Sparsität, hybrider Attention-Kompression, manifold-beschränkten Residualverbindungen und einem fortschrittlichen Optimizer. Zusammen machen diese Innovationen einen 1-Millionen-Token-Kontext nicht nur theoretisch möglich, sondern praktisch zum Standard – zu einem Preis, der ihn für Entwickler, Forscher und Unternehmen weltweit zugänglich macht.