DeepSeek V4 Benchmarks: Ergebnisse bei LiveCodeBench, MMLU, SWE-bench und mehr
DeepSeek V4 erschien am 24. April 2026 mit ambitionierten Versprechen: das beste verfügbare Open-Source-Modell, ein Spitzen-Codeforces-Rating und Leistung auf Frontier-Niveau in Reasoning, Wissen und agentischen Aufgaben. Hier ist eine vollständige Analyse aller wichtigen Benchmark-Ergebnisse – aufgeschlüsselt nach Modellvariante und Reasoning-Modus.
Die Benchmark-Modi von DeepSeek V4
DeepSeek V4 berichtet Ergebnisse in sechs Konfigurationen:
| Konfiguration | Beschreibung |
|---|---|
| V4-Flash Non-Think | Schnell, ohne Denkprozess |
| V4-Flash Think High | Moderate erweiterte Argumentation |
| V4-Flash Think Max | Maximaler Reasoning-Aufwand (Flash) |
| V4-Pro Non-Think | Schnell, ohne Denkprozess (Pro) |
| V4-Pro Think High | Moderate erweiterte Argumentation (Pro) |
| V4-Pro Think Max | Maximales Reasoning — beste Gesamtergebnisse |
Die meisten Wettbewerbs-Benchmarks berichten V4-Pro-Max-Ergebnisse. Das ist die Zahl, die immer dann zitiert wird, wenn „DeepSeek V4" in Schlagzeilen auftaucht.
Coding-Benchmarks
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91,6 % | 93,5 % | 88,8 % | N/A | 91,7 % |
| Codeforces-Rating | 3052 | 3206 | N/A | 3168 | 3052 |
| HMMT 2026 Feb (Pass@1) | 94,8 % | 95,2 % | 96,2 % | 97,7 % | 94,7 % |
| IMOAnswerBench (Pass@1) | 88,4 % | 89,8 % | 75,3 % | 91,4 % | 81,0 % |
Herausragende Ergebnisse:
- V4-Pro-Max erzielt das höchste Codeforces-Rating aller getesteten Modelle (3206) und übertrifft GPT-5.4 (3168) und Claude Opus 4.6 (N/A)
- V4-Pro-Max führt bei LiveCodeBench (93,5 %) unter den Modellen mit verfügbaren Daten
- Bei Wettbewerbsmathematik (IMO) liegt GPT-5.4 knapp vorne (91,4 % vs. 89,8 %)
Wissens- und Reasoning-Benchmarks
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 86,2 % | 87,5 % | 89,1 % | 87,5 % | 91,0 % |
| GPQA Diamond (Pass@1) | 88,1 % | 90,1 % | 91,3 % | 93,0 % | 94,3 % |
| HLE (Pass@1) | 34,8 % | 37,7 % | 40,0 % | 39,8 % | 44,4 % |
| SimpleQA-Verified (Pass@1) | 34,1 % | 57,9 % | 46,2 % | 45,3 % | 75,6 % |
| Apex Shortlist (Pass@1) | 85,7 % | 90,2 % | 85,9 % | 78,1 % | 89,1 % |
Wichtige Beobachtungen:
- Gemini-3.1-Pro führt bei den meisten Wissens-Benchmarks (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
- V4-Pro-Max führt beim anspruchsvollen Reasoning-Benchmark Apex Shortlist (90,2 %)
- V4-Pro-Max beim SimpleQA (57,9 %) übertrifft Opus 4.6 (46,2 %) und GPT-5.4 (45,3 %) deutlich — ein Zeichen starker Faktenerinnerung
Benchmarks für langen Kontext
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | Gemini-3.1-Pro High |
|---|---|---|---|---|
| MRCR 1M (MMR) | 78,7 % | 83,5 % | 92,9 % | 76,3 % |
| CorpusQA 1M (ACC) | 60,5 % | 62,0 % | 71,7 % | 53,8 % |
Analyse:
- V4-Pro übertrifft Gemini-3.1-Pro bei CorpusQA 1M (62,0 % vs. 53,8 %)
- Claude Opus 4.6 führt bei MRCR 1M (92,9 % vs. 83,5 %) — wahrscheinlich dank Claudes Architektur-Optimierungen für den Dokumentenabruf
- Beide V4-Modelle übertreffen Gemini bei CorpusQA komfortabel und eignen sich damit besonders gut für RAG-Workloads
Benchmarks für agentische Aufgaben
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| Terminal Bench 2.0 (Acc) | 56,9 % | 67,9 % | 65,4 % | 75,1 % | 68,5 % |
| SWE-bench Verified (Resolved) | 79,0 % | 80,6 % | 80,8 % | N/A | 80,6 % |
| SWE-bench Pro (Resolved) | 52,6 % | 55,4 % | 57,3 % | 57,7 % | 54,2 % |
| BrowseComp (Pass@1) | 73,2 % | 83,4 % | 83,7 % | 82,7 % | 85,9 % |
| MCPAtlas Public (Pass@1) | 69,0 % | 73,6 % | 73,8 % | 67,2 % | 69,2 % |
| Toolathlon (Pass@1) | 47,8 % | 51,8 % | 47,2 % | 54,6 % | 48,8 % |
Herausragende Ergebnisse:
- SWE-bench Verified: V4-Pro (80,6 %) gleichauf mit Gemini-3.1-Pro (80,6 %) und fast auf Augenhöhe mit Opus 4.6 (80,8 %) — bemerkenswert für ein offenes Modell
- MCPAtlas: V4-Pro (73,6 %) fast gleichauf mit Kategorieanführer Opus 4.6 (73,8 %)
- Terminal Bench 2.0: GPT-5.4 führt (75,1 %), V4-Pro liegt bei 67,9 %
Basismodell-Benchmarks
Die Ergebnisse des V4-Pro-Base (vortrainiert, vor dem Instruction-Tuning) zeigen beeindruckende Rohleistung:
| Benchmark | DS-V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (EM) | 87,8 % | 88,7 % | 90,1 % |
| MMLU-Redux (EM) | 87,5 % | 89,4 % | 90,8 % |
| GSM8K (EM) | 91,1 % | 90,8 % | 92,6 % |
| HumanEval (Pass@1) | 62,8 % | 69,5 % | 76,8 % |
| LongBench-V2 (EM) | 40,2 % | 44,7 % | 51,5 % |
V4-Pro-Base übertrifft sowohl V3.2-Base als auch V4-Flash-Base in allen Kategorien durchgängig.
Zusammenfassung: Stärken und Schwächen von DeepSeek V4
V4-Pro-Max führt bei:
- Codeforces-Wettbewerbsprogrammierung (Rating 3206)
- LiveCodeBench (93,5 %)
- Apex Shortlist Reasoning (90,2 %)
- SimpleQA Faktenabruf (57,9 %) gegenüber den meisten Nicht-Gemini-Modellen
V4-Pro-Max liegt zurück bei:
- GPQA Diamond (Gemini führt mit 94,3 %)
- HLE härtestes Reasoning (Gemini führt mit 44,4 %)
- MRCR 1M langer Kontext (Opus 4.6 führt mit 92,9 %)
- Terminal Bench 2.0 agentische Aufgaben (GPT-5.4 führt mit 75,1 %)
Für KI-native Plattformen und Tools wie Framia.pro, bei denen Coding, agentische Aufgaben und die Verarbeitung langer Kontexte zentrale Anwendungsfälle sind, macht das Benchmark-Profil von DeepSeek V4-Pro es zu einer der überzeugendsten Optionen in 2026.
Fazit
DeepSeek V4-Pro ist in nahezu jeder Benchmark-Kategorie das beste Open-Weight-Modell und konkurriert ernsthaft mit jedem proprietären Frontier-Modell. Seine herausragendste Leistung zeigt es im Wettbewerbs-Coding, wo es alle anderen getesteten Modelle übertrifft. Bei den allerschwierigsten wissenschaftlichen Reasoning- und Langdokument-Abrufaufgaben liegt es leicht zurück — doch der Abstand verringert sich.