DeepSeek V4 Benchmarks: Ergebnisse bei LiveCodeBench, MMLU, SWE-bench und mehr

DeepSeek V4-Pro erzielt 93,5 % bei LiveCodeBench, 3206 bei Codeforces und 90,1 % bei GPQA Diamond. Vollständige Benchmark-Analyse über alle Modi und Konkurrenzmodelle.

by Framia

DeepSeek V4 Benchmarks: Ergebnisse bei LiveCodeBench, MMLU, SWE-bench und mehr

DeepSeek V4 erschien am 24. April 2026 mit ambitionierten Versprechen: das beste verfügbare Open-Source-Modell, ein Spitzen-Codeforces-Rating und Leistung auf Frontier-Niveau in Reasoning, Wissen und agentischen Aufgaben. Hier ist eine vollständige Analyse aller wichtigen Benchmark-Ergebnisse – aufgeschlüsselt nach Modellvariante und Reasoning-Modus.


Die Benchmark-Modi von DeepSeek V4

DeepSeek V4 berichtet Ergebnisse in sechs Konfigurationen:

Konfiguration Beschreibung
V4-Flash Non-Think Schnell, ohne Denkprozess
V4-Flash Think High Moderate erweiterte Argumentation
V4-Flash Think Max Maximaler Reasoning-Aufwand (Flash)
V4-Pro Non-Think Schnell, ohne Denkprozess (Pro)
V4-Pro Think High Moderate erweiterte Argumentation (Pro)
V4-Pro Think Max Maximales Reasoning — beste Gesamtergebnisse

Die meisten Wettbewerbs-Benchmarks berichten V4-Pro-Max-Ergebnisse. Das ist die Zahl, die immer dann zitiert wird, wenn „DeepSeek V4" in Schlagzeilen auftaucht.


Coding-Benchmarks

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
LiveCodeBench (Pass@1) 91,6 % 93,5 % 88,8 % N/A 91,7 %
Codeforces-Rating 3052 3206 N/A 3168 3052
HMMT 2026 Feb (Pass@1) 94,8 % 95,2 % 96,2 % 97,7 % 94,7 %
IMOAnswerBench (Pass@1) 88,4 % 89,8 % 75,3 % 91,4 % 81,0 %

Herausragende Ergebnisse:

  • V4-Pro-Max erzielt das höchste Codeforces-Rating aller getesteten Modelle (3206) und übertrifft GPT-5.4 (3168) und Claude Opus 4.6 (N/A)
  • V4-Pro-Max führt bei LiveCodeBench (93,5 %) unter den Modellen mit verfügbaren Daten
  • Bei Wettbewerbsmathematik (IMO) liegt GPT-5.4 knapp vorne (91,4 % vs. 89,8 %)

Wissens- und Reasoning-Benchmarks

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro (EM) 86,2 % 87,5 % 89,1 % 87,5 % 91,0 %
GPQA Diamond (Pass@1) 88,1 % 90,1 % 91,3 % 93,0 % 94,3 %
HLE (Pass@1) 34,8 % 37,7 % 40,0 % 39,8 % 44,4 %
SimpleQA-Verified (Pass@1) 34,1 % 57,9 % 46,2 % 45,3 % 75,6 %
Apex Shortlist (Pass@1) 85,7 % 90,2 % 85,9 % 78,1 % 89,1 %

Wichtige Beobachtungen:

  • Gemini-3.1-Pro führt bei den meisten Wissens-Benchmarks (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
  • V4-Pro-Max führt beim anspruchsvollen Reasoning-Benchmark Apex Shortlist (90,2 %)
  • V4-Pro-Max beim SimpleQA (57,9 %) übertrifft Opus 4.6 (46,2 %) und GPT-5.4 (45,3 %) deutlich — ein Zeichen starker Faktenerinnerung

Benchmarks für langen Kontext

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max Gemini-3.1-Pro High
MRCR 1M (MMR) 78,7 % 83,5 % 92,9 % 76,3 %
CorpusQA 1M (ACC) 60,5 % 62,0 % 71,7 % 53,8 %

Analyse:

  • V4-Pro übertrifft Gemini-3.1-Pro bei CorpusQA 1M (62,0 % vs. 53,8 %)
  • Claude Opus 4.6 führt bei MRCR 1M (92,9 % vs. 83,5 %) — wahrscheinlich dank Claudes Architektur-Optimierungen für den Dokumentenabruf
  • Beide V4-Modelle übertreffen Gemini bei CorpusQA komfortabel und eignen sich damit besonders gut für RAG-Workloads

Benchmarks für agentische Aufgaben

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc) 56,9 % 67,9 % 65,4 % 75,1 % 68,5 %
SWE-bench Verified (Resolved) 79,0 % 80,6 % 80,8 % N/A 80,6 %
SWE-bench Pro (Resolved) 52,6 % 55,4 % 57,3 % 57,7 % 54,2 %
BrowseComp (Pass@1) 73,2 % 83,4 % 83,7 % 82,7 % 85,9 %
MCPAtlas Public (Pass@1) 69,0 % 73,6 % 73,8 % 67,2 % 69,2 %
Toolathlon (Pass@1) 47,8 % 51,8 % 47,2 % 54,6 % 48,8 %

Herausragende Ergebnisse:

  • SWE-bench Verified: V4-Pro (80,6 %) gleichauf mit Gemini-3.1-Pro (80,6 %) und fast auf Augenhöhe mit Opus 4.6 (80,8 %) — bemerkenswert für ein offenes Modell
  • MCPAtlas: V4-Pro (73,6 %) fast gleichauf mit Kategorieanführer Opus 4.6 (73,8 %)
  • Terminal Bench 2.0: GPT-5.4 führt (75,1 %), V4-Pro liegt bei 67,9 %

Basismodell-Benchmarks

Die Ergebnisse des V4-Pro-Base (vortrainiert, vor dem Instruction-Tuning) zeigen beeindruckende Rohleistung:

Benchmark DS-V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (EM) 87,8 % 88,7 % 90,1 %
MMLU-Redux (EM) 87,5 % 89,4 % 90,8 %
GSM8K (EM) 91,1 % 90,8 % 92,6 %
HumanEval (Pass@1) 62,8 % 69,5 % 76,8 %
LongBench-V2 (EM) 40,2 % 44,7 % 51,5 %

V4-Pro-Base übertrifft sowohl V3.2-Base als auch V4-Flash-Base in allen Kategorien durchgängig.


Zusammenfassung: Stärken und Schwächen von DeepSeek V4

V4-Pro-Max führt bei:

  • Codeforces-Wettbewerbsprogrammierung (Rating 3206)
  • LiveCodeBench (93,5 %)
  • Apex Shortlist Reasoning (90,2 %)
  • SimpleQA Faktenabruf (57,9 %) gegenüber den meisten Nicht-Gemini-Modellen

V4-Pro-Max liegt zurück bei:

  • GPQA Diamond (Gemini führt mit 94,3 %)
  • HLE härtestes Reasoning (Gemini führt mit 44,4 %)
  • MRCR 1M langer Kontext (Opus 4.6 führt mit 92,9 %)
  • Terminal Bench 2.0 agentische Aufgaben (GPT-5.4 führt mit 75,1 %)

Für KI-native Plattformen und Tools wie Framia.pro, bei denen Coding, agentische Aufgaben und die Verarbeitung langer Kontexte zentrale Anwendungsfälle sind, macht das Benchmark-Profil von DeepSeek V4-Pro es zu einer der überzeugendsten Optionen in 2026.


Fazit

DeepSeek V4-Pro ist in nahezu jeder Benchmark-Kategorie das beste Open-Weight-Modell und konkurriert ernsthaft mit jedem proprietären Frontier-Modell. Seine herausragendste Leistung zeigt es im Wettbewerbs-Coding, wo es alle anderen getesteten Modelle übertrifft. Bei den allerschwierigsten wissenschaftlichen Reasoning- und Langdokument-Abrufaufgaben liegt es leicht zurück — doch der Abstand verringert sich.