DeepSeek V4 vs. DeepSeek V3: Wie groß ist der Fortschritt?
DeepSeek V3 — genauer gesagt V3.2 — galt weithin als eines der besten Open-Source-Modelle des Jahres 2025. Als DeepSeek V4 im April 2026 erschien, stellte sich daher unmittelbar die Frage: Wie groß ist der Sprung? Die Antwort ist beeindruckend — insbesondere in den Bereichen Effizienz, Kontextverarbeitung und Coding-Leistung.
Die Modelle im Vergleich
| Merkmal | DeepSeek-V3.2 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|---|
| Gesamtparameter | 671B | 284B | 1,6T |
| Aktive Parameter | 37B | 13B | 49B |
| Kontextfenster | 128K Token | 1M Token | 1M Token |
| Architektur | MoE + MLA | MoE + Hybrid Attention (CSA+HCA) + mHC | MoE + Hybrid Attention (CSA+HCA) + mHC |
| Lizenz | MIT | MIT | MIT |
| Denkmodi | Think / Non-think | Non-think / Think High / Think Max | Non-think / Think High / Think Max |
Die auffälligsten Unterschiede:
- Kontextfenster: V3.2 bot 128K Token; V4 bietet 1 Million — eine 8-fache Steigerung
- V4-Pro hat 2,4× mehr Gesamtparameter als V3.2
- Architektur: V4 führt das Hybrid-Attention-System (CSA + HCA) und mHC ein und verändert damit die Effizienz bei langen Kontexten grundlegend
- Denkmodi: V3.2 hatte zwei Modi; V4 führt drei ein und ermöglicht eine granularere Steuerung des Denkbudgets
Effizienzgewinne: Das eigentliche Highlight
Die beeindruckendste Verbesserung ist nicht die reine Leistung — es ist die Effizienz im großen Maßstab.
Im Szenario mit 1-Million-Token-Kontext benötigt V4-Pro:
- Nur 27 % der Inferenz-FLOPs, die V3.2 bei vergleichbarer Kontextlänge bräuchte
- Nur 10 % des KV-Cache-Speichers, den V3.2 benötigen würde
Das ist die Kerninnovation der Hybrid Attention Architecture (CSA + HCA) von DeepSeek V4. Nicht nur, dass V4 1 Million Token verarbeiten kann — es tut dies wesentlich effizienter, als V3.2 es selbst bei 128K Token konnte.
Benchmark-Vergleich der Basismodelle
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (5-shot) | 87,8 % | 88,7 % | 90,1 % |
| MMLU-Redux (5-shot) | 87,5 % | 89,4 % | 90,8 % |
| MMLU-Pro (5-shot) | 65,5 % | 68,3 % | 73,5 % |
| HumanEval (Pass@1) | 62,8 % | 69,5 % | 76,8 % |
| GSM8K (8-shot) | 91,1 % | 90,8 % | 92,6 % |
| MATH (4-shot) | 60,5 % | 57,4 % | 64,5 % |
| Simple-QA verified | 28,3 % | 30,1 % | 55,2 % |
| LongBench-V2 | 40,2 % | 44,7 % | 51,5 % |
| AGIEval | 80,1 % | 82,6 % | 83,1 % |
Die wichtigsten Erkenntnisse:
- V4-Pro-Base übertrifft V3.2-Base bei nahezu jedem Benchmark
- Die dramatischsten Verbesserungen zeigen sich beim Weltwissen (SimpleQA: 28,3 % → 55,2 %) und bei langen Kontexten (LongBench-V2: 40,2 % → 51,5 %)
- V4-Flash-Base ist trotz kleinerer Größe mit V3.2 vergleichbar oder besser — eine bemerkenswerte Effizienzsteigerung
Coding: Ein enormer Sprung
Die Verbesserung der Coding-Leistung von V3.2 zu V4-Pro ist besonders eindrucksvoll — vor allem im Think-Max-Modus:
| Benchmark | V3.2 (geschätzt) | V4-Pro Max |
|---|---|---|
| LiveCodeBench | ~75–80 % | 93,5 % |
| HumanEval (Base) | 62,8 % | 76,8 % |
| SWE-bench Verified | ~75 % | 80,6 % |
| Codeforces-Rating | ~2500–2700 | 3206 |
Der Sprung im Codeforces-Rating von V3.2 zu V4-Pro-Max markiert einen qualitativen Wandel — V4-Pro gehört nun zur Elite der Wettkampfprogrammierer, ein Niveau, das V3.2 nicht erreichen konnte.
Kontextfenster: Von 128K auf 1 Million Token
Das verdient besondere Aufmerksamkeit. Das 128K-Kontextfenster von DeepSeek V3.2 war bereits großzügig — bedeutete aber, dass große Codebasen, lange juristische Dokumente oder mehrbändige Forschungskontexte in Abschnitte aufgeteilt und zusammengefasst werden mussten.
V4's 1-Millionen-Token-Kontext macht diese Workarounds vollständig überflüssig. Der gesamte Arbeitsablauf ändert sich:
V3.2-Workflow für große Dokumente:
- Dokument in 120K-Token-Abschnitte aufteilen
- Jeden Abschnitt zusammenfassen
- Zusammenfassungen kombinieren und darüber schlussfolgern
- Präzision und Kontextkohärenz gehen verloren
V4-Workflow:
- Das gesamte Dokument in einem Kontext laden
- Frage direkt stellen
- Eine kohärente, vollständige Antwort erhalten
Neue Trainings-Innovationen
V4 führt gegenüber V3.2 bedeutende Trainingsverbesserungen ein:
| Innovation | V3.2 | V4 |
|---|---|---|
| Optimizer | AdamW-Variante | Muon |
| Residualverbindungen | Standard | mHC (Manifold-Constrained Hyper-Connections) |
| Trainings-Token | ~18T | 32T+ |
| Post-Training-Pipeline | SFT + RL | Zweistufig: Expertenspezialisierung → On-Policy-Destillation |
| Aufmerksamkeitsmechanismus | MLA (Multi-head Latent Attention) | Hybrid Attention (CSA + HCA) |
Diese Veränderungen verstärken sich gegenseitig: Mehr Daten, ein besserer Optimizer, stärkere Residualverbindungen und ein revolutionärer Aufmerksamkeitsmechanismus erzeugen zusammen die Benchmark-Verbesserungen, die wir in den Ergebnissen sehen.
Wann lohnt sich V3.2 noch?
Trotz V4's Verbesserungen gibt es Szenarien, in denen V3.2 noch bevorzugt werden könnte:
- Bestehende Feinabstimmungen: Wer V3.2 bereits für eine spezifische Aufgabe finegetuned hat, steht vor erheblichem Aufwand beim Umtrainieren auf V4
- Kleinere Hardware: V3.2 mit 671B gesamt / 37B aktiv läuft noch gut auf Systemen, die V4-Flash (284B gesamt) möglicherweise nicht handhaben können
- Stabilität: V4 ist ein Preview-Release; V3.2 ist ein stabiles, bewährtes Modell
Fazit
Der Sprung von DeepSeek V3.2 zu V4 gehört zu den größten Leistungssprüngen innerhalb einer einzelnen Modellgeneration in der jüngeren KI-Geschichte. Die 8-fache Erweiterung des Kontextfensters, grundlegende Architekturänderungen und Benchmark-Verbesserungen in jeder Kategorie machen V4 für die meisten Anwendungsfälle zum klaren Upgrade.
Für Entwickler und Teams, die V3.2 heute nutzen — ob direkt oder über Plattformen wie Framia.pro — ist die Migration zu V4-Flash oder V4-Pro eine unkomplizierte API-Änderung, die bei vergleichbaren oder niedrigeren Kosten dramatisch bessere Leistung liefert.