DeepSeek V4 Training: Wie das Modell entwickelt wurde
Das Verständnis, wie DeepSeek V4 trainiert wurde, liefert wichtige Einblicke in die Gründe seiner Leistungsfähigkeit – und welche architektonischen sowie datenbezogenen Entscheidungen zu einem Modell geführt haben, das beim Programmieren, Schlussfolgern und der Verarbeitung langer Kontexte die Erwartungen übertrifft. Dieser Leitfaden behandelt das Vortraining, das Nachtraining und die wichtigsten Innovationen, die V4 von seinen Vorgängern unterscheiden.
Vortraining: Skalierung und Daten
Datensatzgröße: Über 32 Billionen Token
Sowohl V4-Pro als auch V4-Flash wurden auf mehr als 32 Billionen Token vielfältiger, hochwertiger Daten vortrainiert. Das ist fast doppelt so viel wie DeepSeek-V3's geschätzte 18 Billionen Vortrainings-Token und stellt eine erhebliche Investition in Rechenkapazität und Datenpflege dar.
Das Trainingskorpus umfasst:
- Natürliche Sprache — Webtexte, Bücher und Artikel in Dutzenden von Sprachen
- Code — Quellcode in allen wichtigen Programmiersprachen
- Mathematik — Formale Beweise, Wettbewerbsaufgaben, Lehrbücher
- Wissenschaftliche Literatur — Forschungsartikel aus MINT-Disziplinen
- Mehrsprachige Inhalte — Starke mehrsprachige Abdeckung, belegt durch MMMLU 90,3 %
Warum mehr Daten entscheidend sind
Die Beziehung zwischen Trainingsumfang und Modellleistung ist nicht linear – doch bei Frontier-Größen verbessern mehr hochwertige, vielfältige Daten konsequent die Wissensbreite, Faktentreue und Generalisierungsfähigkeit.
Der dramatische Anstieg von V4-Pro-Base bei SimpleQA-Verified (55,2 % gegenüber 28,3 % bei V3.2) spiegelt den größeren Datenumfang kombiniert mit verbesserter Datenpflege wider – das Modell hat schlicht mehr Weltwissen gesehen.
Der Muon-Optimierer
DeepSeek ersetzte für V4 den Standard-AdamW-Optimierer durch den Muon-Optimierer.
Was Muon leistet
Standard-Adam-basierte Optimierer aktualisieren Parameter anhand von Gradientenrichtung und -betrag. Muon fügt einen Orthogonalisierungsschritt hinzu: Vor der Anwendung des Gradienten-Updates werden Korrelationen zwischen der aktuellen und vorherigen Update-Richtungen entfernt.
Das Ergebnis:
- Schnellere Konvergenz: Aus jedem Trainingsschritt wird mehr nützliche Information extrahiert
- Größere Stabilität: Orthogonalisierte Updates verursachen seltener Schwingungen oder Divergenz
- Bessere Skalierbarkeit: Muons Stabilitätseigenschaften sind bei V4's Skalierung (1,6 Billionen Parameter) besonders wertvoll
Man kann es als effizientere Erkundung des Parameterraums verstehen: Muon verhindert redundante Schritte, indem jedes Gradienten-Update garantiert in eine wirklich neue Richtung geht.
Architektonische Innovationen während des Vortrainings
Hybrid-Attention-Architektur (CSA + HCA)
Im Gegensatz zu V3.2, das Multi-head Latent Attention (MLA) verwendete, trainiert V4 von Grund auf mit der Hybrid-Attention-Architektur. Das bedeutet, die internen Repräsentationen des Modells werden von Beginn an durch den CSA + HCA-Mechanismus geprägt – nicht nachträglich auf eine ältere Architektur aufgesetzt.
Daher verarbeitet V4 Kontexte mit einer Million Token natürlicher: Die während des Vortrainings erlernten Aufmerksamkeitsmuster sind auf die hierarchische Kompressionsstruktur optimiert.
Manifold-Constrained Hyper-Connections (mHC)
mHC ersetzt im gesamten Netzwerk die Standard-Residualverbindungen. Das Vortraining mit mHC von Anfang an bedeutet, dass sich die Gewichtsmatrizen des Modells in einem strukturell eingeschränkten Raum entwickeln, der eine stabile Signalausbreitung fördert.
Der praktische Effekt: Das Training eines Modells mit 1,6 Billionen Parametern auf 32 Billionen+ Token ist ohne katastrophale Instabilitäten möglich – ein Problem, das Versuche plagt, Standardarchitekturen auf diese Größe zu skalieren.
Nachtraining: Die zweistufige Pipeline
Stufe 1: Unabhängige Experten-Kultivierung
Die einzelnen Experten der MoE-Architektur werden unabhängig voneinander für die Domänenspezialisierung trainiert:
Supervised Fine-Tuning (SFT):
- Hochwertige beschriftete Beispiele in der Domäne jedes Experten
- Das Modell lernt, in jeder Spezialität Anweisungen präzise zu befolgen
- Umfasst Programmierung, Mathematik, Wissenschaft, Sprache, Allgemeinwissen und Sicherheit
Reinforcement Learning mit GRPO:
- Group Relative Policy Optimization belohnt das Modell dafür, bessere Antworten im Vergleich zu einer Gruppe von Stichproben zu generieren
- Wird unabhängig auf jede Domäne/jeden Experten angewendet
- Formt das Expertenverhalten in Richtung menschlicher Präferenzen, ohne ein separates Belohnungsmodell zu benötigen
Stufe 2: Konsolidierung des einheitlichen Modells
Nach Stufe 1 werden die unabhängig trainierten Experten durch On-Policy-Destillation in ein einheitliches Modell integriert:
- Das in Stufe 1 spezialisierte Modell generiert Ausgaben zu verschiedenen Aufgaben
- Das endgültige Modell wird trainiert, diese Ausgaben zu übernehmen (zu destillieren)
- Der Routing-Mechanismus lernt, die richtigen Experten für jede Aufgabe zu aktivieren
Diese Konsolidierungsphase verleiht V4-Pro seine ungewöhnliche Kombination aus tiefer Kompetenz über sehr unterschiedliche Domänen hinweg – jeder Experte ist wirklich spezialisiert, und der Router hat gelernt, sie angemessen einzusetzen.
Hardware: Huawei Ascend 950PR
Eine der bedeutsamsten Tatsachen über V4's Training ist die verwendete Hardware:
V4 wurde auf Huawei Ascend 950PR-Chips trainiert — nicht auf NVIDIAs A100s oder H100s.
Dies hat mehrere Implikationen:
Technisch: Der Huawei Ascend 950PR ist ein leistungsstarker KI-Beschleuniger mit wettbewerbsfähigem Trainingsdurchsatz für große Modelle. V4's Ergebnisse belegen, dass Frontier-KI-Training auf dieser Hardware erreichbar ist.
Geopolitisch: US-Exportbeschränkungen limitieren den Zugang chinesischer Unternehmen zu NVIDIAs modernsten Chips. DeepSeeks Erfolg beim Training von V4 auf Ascend-Hardware zeigt, dass Chinas heimische KI-Chip-Fähigkeiten höher sind als viele angenommen haben.
Strategisch: Durch die Entwicklung auf heimischer Hardware reduziert DeepSeek (und damit Chinas KI-Ökosystem) die Abhängigkeit von US-kontrollierten Lieferketten für die Frontier-KI-Entwicklung.
Alignment nach dem Training
Nach der zweistufigen RLHF-Pipeline wird V4 einem sicherheitsorientierten Alignment-Tuning unterzogen:
- Zusätzliche SFT-Beispiele, die sicherheitsrelevante Szenarien abdecken
- Verfassungsähnliche Richtlinien, die in die Anweisungserfüllung integriert sind
- Mehrsprachiges Sicherheits-Alignment über alle von V4 unterstützten Sprachen
Der genaue Umfang von DeepSeeks sicherheitsbezogenem Nachtraining ist im öffentlichen technischen Bericht nicht vollständig dokumentiert, aber die branchenübliche Praxis und DeepSeeks Erfolgsbilanz mit früheren Modellen lassen eine umfassende Abdeckung gängiger Missbrauchsszenarien erwarten.
Trainingskosten: Die Effizienzgeschichte
DeepSeek wurde bereits zuvor dafür gefeiert, Frontier-Ergebnisse zu dramatisch niedrigeren Trainingskosten als westliche Wettbewerber zu erzielen. Die Trainingskosten von V4 wurden nicht offiziell bekannt gegeben, aber mehrere Faktoren deuten auf anhaltende Effizienzvorteile hin:
- Muon-Optimierer: Weniger verschwendete Gradientenschritte
- mHC-Stabilität: Weniger Rechenverlust durch Trainingsinstabilitäten
- MoE-Sparsität: Nur 49 Milliarden aktive Parameter pro Token, nicht 1,6 Billionen
- Ascend 950PR-Optimierung: Speziell für diese Art von Training entwickelt
Die Kombination aus architektonischen und Optimierer-Verbesserungen bedeutet, dass V4 mehr Leistung pro Trainings-FLOP extrahiert als frühere Ansätze.
Von V3.2 zu V4: Was sich beim Training geändert hat
| Trainingsaspekt | V3.2 | V4 |
|---|---|---|
| Optimierer | AdamW-Variante | Muon |
| Residualverbindungen | Standard | mHC |
| Attention-Mechanismus | MLA | Hybrid (CSA + HCA) |
| Vortrainings-Token | ~18 Billionen | 32 Billionen+ |
| Nachtrainings-Pipeline | SFT + RL | Zweistufig: Spezialisierung + Konsolidierung |
| Hardware | NVIDIA (H800-Äquivalent) | Huawei Ascend 950PR |
Bedeutung für die Forschungsgemeinschaft
V4's Trainingsmethodik – insbesondere der Muon-Optimierer, mHC und das zweistufige Nachtraining – ist im technischen Bericht offen dokumentiert und steht der Forschungsgemeinschaft zum Studium und zur Replikation zur Verfügung. DeepSeeks Transparenz spiegelt seine forschungsorientierte Unternehmenskultur wider.
Plattformen wie Framia.pro, die Frontier-KI-Fähigkeiten integrieren, profitieren von dieser Kultur der Wissensteilung: Während diese Trainingstechniken im gesamten Ökosystem repliziert und verfeinert werden, steigt die Qualitätsgrenze für KI-Modelle kontinuierlich an und verbessert jede nachgelagerte Anwendung.
Fazit
DeepSeek V4 wurde durch eine Kombination aus beispielloser Datenskalierung (32 Billionen+ Token), architektonischen Innovationen (Hybrid-Attention, mHC), Optimierer-Verbesserungen (Muon) und einer neuartigen zweistufigen Nachtrainings-Pipeline entwickelt. Das Ergebnis ist ein Modell, das Frontier-Leistung auf einem chinesischen Inlands-Hardware-Stack erzielt – eine wegweisende Leistung, die V4 als technischen und strategischen Meilenstein in der KI-Entwicklung etabliert.