DeepSeek V4 Benchmarks: Vollständige Ergebnisanalyse (2026)

DeepSeek V4-Pro erzielt 93,5 % bei LiveCodeBench, 3206 bei Codeforces und 90,1 % bei GPQA Diamond. Vollständige Benchmark-Analyse über alle Modi und Konkurrenzmodelle.

DeepSeek V4 Benchmarks: Ergebnisse bei LiveCodeBench, MMLU, SWE-bench und mehr

DeepSeek V4 erschien am 24. April 2026 mit ambitionierten Versprechen: das beste verfügbare Open-Source-Modell, ein Spitzen-Codeforces-Rating und Leistung auf Frontier-Niveau in Reasoning, Wissen und agentischen Aufgaben. Hier ist eine vollständige Analyse aller wichtigen Benchmark-Ergebnisse – aufgeschlüsselt nach Modellvariante und Reasoning-Modus.

Die Benchmark-Modi von DeepSeek V4

DeepSeek V4 berichtet Ergebnisse in sechs Konfigurationen:

Konfiguration	Beschreibung
V4-Flash Non-Think	Schnell, ohne Denkprozess
V4-Flash Think High	Moderate erweiterte Argumentation
V4-Flash Think Max	Maximaler Reasoning-Aufwand (Flash)
V4-Pro Non-Think	Schnell, ohne Denkprozess (Pro)
V4-Pro Think High	Moderate erweiterte Argumentation (Pro)
V4-Pro Think Max	Maximales Reasoning — beste Gesamtergebnisse

Die meisten Wettbewerbs-Benchmarks berichten V4-Pro-Max-Ergebnisse. Das ist die Zahl, die immer dann zitiert wird, wenn „DeepSeek V4" in Schlagzeilen auftaucht.

Coding-Benchmarks

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
LiveCodeBench (Pass@1)	91,6 %	93,5 %	88,8 %	N/A	91,7 %
Codeforces-Rating	3052	3206	N/A	3168	3052
HMMT 2026 Feb (Pass@1)	94,8 %	95,2 %	96,2 %	97,7 %	94,7 %
IMOAnswerBench (Pass@1)	88,4 %	89,8 %	75,3 %	91,4 %	81,0 %

Herausragende Ergebnisse:

V4-Pro-Max erzielt das höchste Codeforces-Rating aller getesteten Modelle (3206) und übertrifft GPT-5.4 (3168) und Claude Opus 4.6 (N/A)
V4-Pro-Max führt bei LiveCodeBench (93,5 %) unter den Modellen mit verfügbaren Daten
Bei Wettbewerbsmathematik (IMO) liegt GPT-5.4 knapp vorne (91,4 % vs. 89,8 %)

Wissens- und Reasoning-Benchmarks

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro (EM)	86,2 %	87,5 %	89,1 %	87,5 %	91,0 %
GPQA Diamond (Pass@1)	88,1 %	90,1 %	91,3 %	93,0 %	94,3 %
HLE (Pass@1)	34,8 %	37,7 %	40,0 %	39,8 %	44,4 %
SimpleQA-Verified (Pass@1)	34,1 %	57,9 %	46,2 %	45,3 %	75,6 %
Apex Shortlist (Pass@1)	85,7 %	90,2 %	85,9 %	78,1 %	89,1 %

Wichtige Beobachtungen:

Gemini-3.1-Pro führt bei den meisten Wissens-Benchmarks (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
V4-Pro-Max führt beim anspruchsvollen Reasoning-Benchmark Apex Shortlist (90,2 %)
V4-Pro-Max beim SimpleQA (57,9 %) übertrifft Opus 4.6 (46,2 %) und GPT-5.4 (45,3 %) deutlich — ein Zeichen starker Faktenerinnerung

Benchmarks für langen Kontext

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	Gemini-3.1-Pro High
MRCR 1M (MMR)	78,7 %	83,5 %	92,9 %	76,3 %
CorpusQA 1M (ACC)	60,5 %	62,0 %	71,7 %	53,8 %

Analyse:

V4-Pro übertrifft Gemini-3.1-Pro bei CorpusQA 1M (62,0 % vs. 53,8 %)
Claude Opus 4.6 führt bei MRCR 1M (92,9 % vs. 83,5 %) — wahrscheinlich dank Claudes Architektur-Optimierungen für den Dokumentenabruf
Beide V4-Modelle übertreffen Gemini bei CorpusQA komfortabel und eignen sich damit besonders gut für RAG-Workloads

Benchmarks für agentische Aufgaben

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc)	56,9 %	67,9 %	65,4 %	75,1 %	68,5 %
SWE-bench Verified (Resolved)	79,0 %	80,6 %	80,8 %	N/A	80,6 %
SWE-bench Pro (Resolved)	52,6 %	55,4 %	57,3 %	57,7 %	54,2 %
BrowseComp (Pass@1)	73,2 %	83,4 %	83,7 %	82,7 %	85,9 %
MCPAtlas Public (Pass@1)	69,0 %	73,6 %	73,8 %	67,2 %	69,2 %
Toolathlon (Pass@1)	47,8 %	51,8 %	47,2 %	54,6 %	48,8 %

Herausragende Ergebnisse:

SWE-bench Verified: V4-Pro (80,6 %) gleichauf mit Gemini-3.1-Pro (80,6 %) und fast auf Augenhöhe mit Opus 4.6 (80,8 %) — bemerkenswert für ein offenes Modell
MCPAtlas: V4-Pro (73,6 %) fast gleichauf mit Kategorieanführer Opus 4.6 (73,8 %)
Terminal Bench 2.0: GPT-5.4 führt (75,1 %), V4-Pro liegt bei 67,9 %

Basismodell-Benchmarks

Die Ergebnisse des V4-Pro-Base (vortrainiert, vor dem Instruction-Tuning) zeigen beeindruckende Rohleistung:

Benchmark	DS-V3.2-Base	V4-Flash-Base	V4-Pro-Base
MMLU (EM)	87,8 %	88,7 %	90,1 %
MMLU-Redux (EM)	87,5 %	89,4 %	90,8 %
GSM8K (EM)	91,1 %	90,8 %	92,6 %
HumanEval (Pass@1)	62,8 %	69,5 %	76,8 %
LongBench-V2 (EM)	40,2 %	44,7 %	51,5 %

V4-Pro-Base übertrifft sowohl V3.2-Base als auch V4-Flash-Base in allen Kategorien durchgängig.

Zusammenfassung: Stärken und Schwächen von DeepSeek V4

V4-Pro-Max führt bei:

Codeforces-Wettbewerbsprogrammierung (Rating 3206)
LiveCodeBench (93,5 %)
Apex Shortlist Reasoning (90,2 %)
SimpleQA Faktenabruf (57,9 %) gegenüber den meisten Nicht-Gemini-Modellen

V4-Pro-Max liegt zurück bei:

GPQA Diamond (Gemini führt mit 94,3 %)
HLE härtestes Reasoning (Gemini führt mit 44,4 %)
MRCR 1M langer Kontext (Opus 4.6 führt mit 92,9 %)
Terminal Bench 2.0 agentische Aufgaben (GPT-5.4 führt mit 75,1 %)

Für KI-native Plattformen und Tools wie Framia.pro, bei denen Coding, agentische Aufgaben und die Verarbeitung langer Kontexte zentrale Anwendungsfälle sind, macht das Benchmark-Profil von DeepSeek V4-Pro es zu einer der überzeugendsten Optionen in 2026.

Fazit

DeepSeek V4-Pro ist in nahezu jeder Benchmark-Kategorie das beste Open-Weight-Modell und konkurriert ernsthaft mit jedem proprietären Frontier-Modell. Seine herausragendste Leistung zeigt es im Wettbewerbs-Coding, wo es alle anderen getesteten Modelle übertrifft. Bei den allerschwierigsten wissenschaftlichen Reasoning- und Langdokument-Abrufaufgaben liegt es leicht zurück — doch der Abstand verringert sich.