DeepSeek V4 vs. DeepSeek V3: Wie groß ist der Fortschritt?

DeepSeek V4 vs. V3.2 im Vergleich: 8× größeres Kontextfenster, Hybrid Attention Architecture, Muon-Optimizer, 32T Trainings-Token. Alle Benchmarks und Architektur-Neuerungen im Überblick.

by Framia

DeepSeek V4 vs. DeepSeek V3: Wie groß ist der Fortschritt?

DeepSeek V3 — genauer gesagt V3.2 — galt weithin als eines der besten Open-Source-Modelle des Jahres 2025. Als DeepSeek V4 im April 2026 erschien, stellte sich daher unmittelbar die Frage: Wie groß ist der Sprung? Die Antwort ist beeindruckend — insbesondere in den Bereichen Effizienz, Kontextverarbeitung und Coding-Leistung.


Die Modelle im Vergleich

Merkmal DeepSeek-V3.2 DeepSeek-V4-Flash DeepSeek-V4-Pro
Gesamtparameter 671B 284B 1,6T
Aktive Parameter 37B 13B 49B
Kontextfenster 128K Token 1M Token 1M Token
Architektur MoE + MLA MoE + Hybrid Attention (CSA+HCA) + mHC MoE + Hybrid Attention (CSA+HCA) + mHC
Lizenz MIT MIT MIT
Denkmodi Think / Non-think Non-think / Think High / Think Max Non-think / Think High / Think Max

Die auffälligsten Unterschiede:

  1. Kontextfenster: V3.2 bot 128K Token; V4 bietet 1 Million — eine 8-fache Steigerung
  2. V4-Pro hat 2,4× mehr Gesamtparameter als V3.2
  3. Architektur: V4 führt das Hybrid-Attention-System (CSA + HCA) und mHC ein und verändert damit die Effizienz bei langen Kontexten grundlegend
  4. Denkmodi: V3.2 hatte zwei Modi; V4 führt drei ein und ermöglicht eine granularere Steuerung des Denkbudgets

Effizienzgewinne: Das eigentliche Highlight

Die beeindruckendste Verbesserung ist nicht die reine Leistung — es ist die Effizienz im großen Maßstab.

Im Szenario mit 1-Million-Token-Kontext benötigt V4-Pro:

  • Nur 27 % der Inferenz-FLOPs, die V3.2 bei vergleichbarer Kontextlänge bräuchte
  • Nur 10 % des KV-Cache-Speichers, den V3.2 benötigen würde

Das ist die Kerninnovation der Hybrid Attention Architecture (CSA + HCA) von DeepSeek V4. Nicht nur, dass V4 1 Million Token verarbeiten kann — es tut dies wesentlich effizienter, als V3.2 es selbst bei 128K Token konnte.


Benchmark-Vergleich der Basismodelle

Benchmark V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (5-shot) 87,8 % 88,7 % 90,1 %
MMLU-Redux (5-shot) 87,5 % 89,4 % 90,8 %
MMLU-Pro (5-shot) 65,5 % 68,3 % 73,5 %
HumanEval (Pass@1) 62,8 % 69,5 % 76,8 %
GSM8K (8-shot) 91,1 % 90,8 % 92,6 %
MATH (4-shot) 60,5 % 57,4 % 64,5 %
Simple-QA verified 28,3 % 30,1 % 55,2 %
LongBench-V2 40,2 % 44,7 % 51,5 %
AGIEval 80,1 % 82,6 % 83,1 %

Die wichtigsten Erkenntnisse:

  • V4-Pro-Base übertrifft V3.2-Base bei nahezu jedem Benchmark
  • Die dramatischsten Verbesserungen zeigen sich beim Weltwissen (SimpleQA: 28,3 % → 55,2 %) und bei langen Kontexten (LongBench-V2: 40,2 % → 51,5 %)
  • V4-Flash-Base ist trotz kleinerer Größe mit V3.2 vergleichbar oder besser — eine bemerkenswerte Effizienzsteigerung

Coding: Ein enormer Sprung

Die Verbesserung der Coding-Leistung von V3.2 zu V4-Pro ist besonders eindrucksvoll — vor allem im Think-Max-Modus:

Benchmark V3.2 (geschätzt) V4-Pro Max
LiveCodeBench ~75–80 % 93,5 %
HumanEval (Base) 62,8 % 76,8 %
SWE-bench Verified ~75 % 80,6 %
Codeforces-Rating ~2500–2700 3206

Der Sprung im Codeforces-Rating von V3.2 zu V4-Pro-Max markiert einen qualitativen Wandel — V4-Pro gehört nun zur Elite der Wettkampfprogrammierer, ein Niveau, das V3.2 nicht erreichen konnte.


Kontextfenster: Von 128K auf 1 Million Token

Das verdient besondere Aufmerksamkeit. Das 128K-Kontextfenster von DeepSeek V3.2 war bereits großzügig — bedeutete aber, dass große Codebasen, lange juristische Dokumente oder mehrbändige Forschungskontexte in Abschnitte aufgeteilt und zusammengefasst werden mussten.

V4's 1-Millionen-Token-Kontext macht diese Workarounds vollständig überflüssig. Der gesamte Arbeitsablauf ändert sich:

V3.2-Workflow für große Dokumente:

  1. Dokument in 120K-Token-Abschnitte aufteilen
  2. Jeden Abschnitt zusammenfassen
  3. Zusammenfassungen kombinieren und darüber schlussfolgern
  4. Präzision und Kontextkohärenz gehen verloren

V4-Workflow:

  1. Das gesamte Dokument in einem Kontext laden
  2. Frage direkt stellen
  3. Eine kohärente, vollständige Antwort erhalten

Neue Trainings-Innovationen

V4 führt gegenüber V3.2 bedeutende Trainingsverbesserungen ein:

Innovation V3.2 V4
Optimizer AdamW-Variante Muon
Residualverbindungen Standard mHC (Manifold-Constrained Hyper-Connections)
Trainings-Token ~18T 32T+
Post-Training-Pipeline SFT + RL Zweistufig: Expertenspezialisierung → On-Policy-Destillation
Aufmerksamkeitsmechanismus MLA (Multi-head Latent Attention) Hybrid Attention (CSA + HCA)

Diese Veränderungen verstärken sich gegenseitig: Mehr Daten, ein besserer Optimizer, stärkere Residualverbindungen und ein revolutionärer Aufmerksamkeitsmechanismus erzeugen zusammen die Benchmark-Verbesserungen, die wir in den Ergebnissen sehen.


Wann lohnt sich V3.2 noch?

Trotz V4's Verbesserungen gibt es Szenarien, in denen V3.2 noch bevorzugt werden könnte:

  • Bestehende Feinabstimmungen: Wer V3.2 bereits für eine spezifische Aufgabe finegetuned hat, steht vor erheblichem Aufwand beim Umtrainieren auf V4
  • Kleinere Hardware: V3.2 mit 671B gesamt / 37B aktiv läuft noch gut auf Systemen, die V4-Flash (284B gesamt) möglicherweise nicht handhaben können
  • Stabilität: V4 ist ein Preview-Release; V3.2 ist ein stabiles, bewährtes Modell

Fazit

Der Sprung von DeepSeek V3.2 zu V4 gehört zu den größten Leistungssprüngen innerhalb einer einzelnen Modellgeneration in der jüngeren KI-Geschichte. Die 8-fache Erweiterung des Kontextfensters, grundlegende Architekturänderungen und Benchmark-Verbesserungen in jeder Kategorie machen V4 für die meisten Anwendungsfälle zum klaren Upgrade.

Für Entwickler und Teams, die V3.2 heute nutzen — ob direkt oder über Plattformen wie Framia.pro — ist die Migration zu V4-Flash oder V4-Pro eine unkomplizierte API-Änderung, die bei vergleichbaren oder niedrigeren Kosten dramatisch bessere Leistung liefert.