DeepSeek V4 Training erklärt: Architektur und Methodik (2026)

Wie DeepSeek V4 trainiert wurde: über 32 Billionen Token, Muon-Optimierer, mHC, Hybrid Attention und zweistufiges Post-Training auf dem Huawei Ascend 950PR. Vollständige Trainingsmethodik.

DeepSeek V4 Training: Wie das Modell entwickelt wurde

Das Verständnis, wie DeepSeek V4 trainiert wurde, liefert wichtige Einblicke in die Gründe seiner Leistungsfähigkeit – und welche architektonischen sowie datenbezogenen Entscheidungen zu einem Modell geführt haben, das beim Programmieren, Schlussfolgern und der Verarbeitung langer Kontexte die Erwartungen übertrifft. Dieser Leitfaden behandelt das Vortraining, das Nachtraining und die wichtigsten Innovationen, die V4 von seinen Vorgängern unterscheiden.

Vortraining: Skalierung und Daten

Datensatzgröße: Über 32 Billionen Token

Sowohl V4-Pro als auch V4-Flash wurden auf mehr als 32 Billionen Token vielfältiger, hochwertiger Daten vortrainiert. Das ist fast doppelt so viel wie DeepSeek-V3's geschätzte 18 Billionen Vortrainings-Token und stellt eine erhebliche Investition in Rechenkapazität und Datenpflege dar.

Das Trainingskorpus umfasst:

Natürliche Sprache — Webtexte, Bücher und Artikel in Dutzenden von Sprachen
Code — Quellcode in allen wichtigen Programmiersprachen
Mathematik — Formale Beweise, Wettbewerbsaufgaben, Lehrbücher
Wissenschaftliche Literatur — Forschungsartikel aus MINT-Disziplinen
Mehrsprachige Inhalte — Starke mehrsprachige Abdeckung, belegt durch MMMLU 90,3 %

Warum mehr Daten entscheidend sind

Die Beziehung zwischen Trainingsumfang und Modellleistung ist nicht linear – doch bei Frontier-Größen verbessern mehr hochwertige, vielfältige Daten konsequent die Wissensbreite, Faktentreue und Generalisierungsfähigkeit.

Der dramatische Anstieg von V4-Pro-Base bei SimpleQA-Verified (55,2 % gegenüber 28,3 % bei V3.2) spiegelt den größeren Datenumfang kombiniert mit verbesserter Datenpflege wider – das Modell hat schlicht mehr Weltwissen gesehen.

Der Muon-Optimierer

DeepSeek ersetzte für V4 den Standard-AdamW-Optimierer durch den Muon-Optimierer.

Was Muon leistet

Standard-Adam-basierte Optimierer aktualisieren Parameter anhand von Gradientenrichtung und -betrag. Muon fügt einen Orthogonalisierungsschritt hinzu: Vor der Anwendung des Gradienten-Updates werden Korrelationen zwischen der aktuellen und vorherigen Update-Richtungen entfernt.

Das Ergebnis:

Schnellere Konvergenz: Aus jedem Trainingsschritt wird mehr nützliche Information extrahiert
Größere Stabilität: Orthogonalisierte Updates verursachen seltener Schwingungen oder Divergenz
Bessere Skalierbarkeit: Muons Stabilitätseigenschaften sind bei V4's Skalierung (1,6 Billionen Parameter) besonders wertvoll

Man kann es als effizientere Erkundung des Parameterraums verstehen: Muon verhindert redundante Schritte, indem jedes Gradienten-Update garantiert in eine wirklich neue Richtung geht.

Architektonische Innovationen während des Vortrainings

Hybrid-Attention-Architektur (CSA + HCA)

Im Gegensatz zu V3.2, das Multi-head Latent Attention (MLA) verwendete, trainiert V4 von Grund auf mit der Hybrid-Attention-Architektur. Das bedeutet, die internen Repräsentationen des Modells werden von Beginn an durch den CSA + HCA-Mechanismus geprägt – nicht nachträglich auf eine ältere Architektur aufgesetzt.

Daher verarbeitet V4 Kontexte mit einer Million Token natürlicher: Die während des Vortrainings erlernten Aufmerksamkeitsmuster sind auf die hierarchische Kompressionsstruktur optimiert.

Manifold-Constrained Hyper-Connections (mHC)

mHC ersetzt im gesamten Netzwerk die Standard-Residualverbindungen. Das Vortraining mit mHC von Anfang an bedeutet, dass sich die Gewichtsmatrizen des Modells in einem strukturell eingeschränkten Raum entwickeln, der eine stabile Signalausbreitung fördert.

Der praktische Effekt: Das Training eines Modells mit 1,6 Billionen Parametern auf 32 Billionen+ Token ist ohne katastrophale Instabilitäten möglich – ein Problem, das Versuche plagt, Standardarchitekturen auf diese Größe zu skalieren.

Nachtraining: Die zweistufige Pipeline

Stufe 1: Unabhängige Experten-Kultivierung

Die einzelnen Experten der MoE-Architektur werden unabhängig voneinander für die Domänenspezialisierung trainiert:

Supervised Fine-Tuning (SFT):

Hochwertige beschriftete Beispiele in der Domäne jedes Experten
Das Modell lernt, in jeder Spezialität Anweisungen präzise zu befolgen
Umfasst Programmierung, Mathematik, Wissenschaft, Sprache, Allgemeinwissen und Sicherheit

Reinforcement Learning mit GRPO:

Group Relative Policy Optimization belohnt das Modell dafür, bessere Antworten im Vergleich zu einer Gruppe von Stichproben zu generieren
Wird unabhängig auf jede Domäne/jeden Experten angewendet
Formt das Expertenverhalten in Richtung menschlicher Präferenzen, ohne ein separates Belohnungsmodell zu benötigen

Stufe 2: Konsolidierung des einheitlichen Modells

Nach Stufe 1 werden die unabhängig trainierten Experten durch On-Policy-Destillation in ein einheitliches Modell integriert:

Das in Stufe 1 spezialisierte Modell generiert Ausgaben zu verschiedenen Aufgaben
Das endgültige Modell wird trainiert, diese Ausgaben zu übernehmen (zu destillieren)
Der Routing-Mechanismus lernt, die richtigen Experten für jede Aufgabe zu aktivieren

Diese Konsolidierungsphase verleiht V4-Pro seine ungewöhnliche Kombination aus tiefer Kompetenz über sehr unterschiedliche Domänen hinweg – jeder Experte ist wirklich spezialisiert, und der Router hat gelernt, sie angemessen einzusetzen.

Hardware: Huawei Ascend 950PR

Eine der bedeutsamsten Tatsachen über V4's Training ist die verwendete Hardware:

V4 wurde auf Huawei Ascend 950PR-Chips trainiert — nicht auf NVIDIAs A100s oder H100s.

Dies hat mehrere Implikationen:

Technisch: Der Huawei Ascend 950PR ist ein leistungsstarker KI-Beschleuniger mit wettbewerbsfähigem Trainingsdurchsatz für große Modelle. V4's Ergebnisse belegen, dass Frontier-KI-Training auf dieser Hardware erreichbar ist.

Geopolitisch: US-Exportbeschränkungen limitieren den Zugang chinesischer Unternehmen zu NVIDIAs modernsten Chips. DeepSeeks Erfolg beim Training von V4 auf Ascend-Hardware zeigt, dass Chinas heimische KI-Chip-Fähigkeiten höher sind als viele angenommen haben.

Strategisch: Durch die Entwicklung auf heimischer Hardware reduziert DeepSeek (und damit Chinas KI-Ökosystem) die Abhängigkeit von US-kontrollierten Lieferketten für die Frontier-KI-Entwicklung.

Alignment nach dem Training

Nach der zweistufigen RLHF-Pipeline wird V4 einem sicherheitsorientierten Alignment-Tuning unterzogen:

Zusätzliche SFT-Beispiele, die sicherheitsrelevante Szenarien abdecken
Verfassungsähnliche Richtlinien, die in die Anweisungserfüllung integriert sind
Mehrsprachiges Sicherheits-Alignment über alle von V4 unterstützten Sprachen

Der genaue Umfang von DeepSeeks sicherheitsbezogenem Nachtraining ist im öffentlichen technischen Bericht nicht vollständig dokumentiert, aber die branchenübliche Praxis und DeepSeeks Erfolgsbilanz mit früheren Modellen lassen eine umfassende Abdeckung gängiger Missbrauchsszenarien erwarten.

Trainingskosten: Die Effizienzgeschichte

DeepSeek wurde bereits zuvor dafür gefeiert, Frontier-Ergebnisse zu dramatisch niedrigeren Trainingskosten als westliche Wettbewerber zu erzielen. Die Trainingskosten von V4 wurden nicht offiziell bekannt gegeben, aber mehrere Faktoren deuten auf anhaltende Effizienzvorteile hin:

Muon-Optimierer: Weniger verschwendete Gradientenschritte
mHC-Stabilität: Weniger Rechenverlust durch Trainingsinstabilitäten
MoE-Sparsität: Nur 49 Milliarden aktive Parameter pro Token, nicht 1,6 Billionen
Ascend 950PR-Optimierung: Speziell für diese Art von Training entwickelt

Die Kombination aus architektonischen und Optimierer-Verbesserungen bedeutet, dass V4 mehr Leistung pro Trainings-FLOP extrahiert als frühere Ansätze.

Von V3.2 zu V4: Was sich beim Training geändert hat

Trainingsaspekt	V3.2	V4
Optimierer	AdamW-Variante	Muon
Residualverbindungen	Standard	mHC
Attention-Mechanismus	MLA	Hybrid (CSA + HCA)
Vortrainings-Token	~18 Billionen	32 Billionen+
Nachtrainings-Pipeline	SFT + RL	Zweistufig: Spezialisierung + Konsolidierung
Hardware	NVIDIA (H800-Äquivalent)	Huawei Ascend 950PR

Bedeutung für die Forschungsgemeinschaft

V4's Trainingsmethodik – insbesondere der Muon-Optimierer, mHC und das zweistufige Nachtraining – ist im technischen Bericht offen dokumentiert und steht der Forschungsgemeinschaft zum Studium und zur Replikation zur Verfügung. DeepSeeks Transparenz spiegelt seine forschungsorientierte Unternehmenskultur wider.

Plattformen wie Framia.pro, die Frontier-KI-Fähigkeiten integrieren, profitieren von dieser Kultur der Wissensteilung: Während diese Trainingstechniken im gesamten Ökosystem repliziert und verfeinert werden, steigt die Qualitätsgrenze für KI-Modelle kontinuierlich an und verbessert jede nachgelagerte Anwendung.

Fazit

DeepSeek V4 wurde durch eine Kombination aus beispielloser Datenskalierung (32 Billionen+ Token), architektonischen Innovationen (Hybrid-Attention, mHC), Optimierer-Verbesserungen (Muon) und einer neuartigen zweistufigen Nachtrainings-Pipeline entwickelt. Das Ergebnis ist ein Modell, das Frontier-Leistung auf einem chinesischen Inlands-Hardware-Stack erzielt – eine wegweisende Leistung, die V4 als technischen und strategischen Meilenstein in der KI-Entwicklung etabliert.