Benchmarks DeepSeek V4 : résultats sur LiveCodeBench, MMLU, SWE-bench et plus encore

DeepSeek V4-Pro obtient 93,5 % sur LiveCodeBench, 3206 sur Codeforces et 90,1 % sur GPQA Diamond. Analyse détaillée par mode et par concurrent.

by Framia

Benchmarks DeepSeek V4 : résultats sur LiveCodeBench, MMLU, SWE-bench et plus encore

DeepSeek V4 est arrivé le 24 avril 2026 avec de grandes ambitions : le meilleur modèle open source disponible, un score Codeforces record et des performances proches des modèles frontier en raisonnement, connaissances et tâches agentiques. Voici une analyse complète de tous les grands résultats de benchmarks, classés par variante de modèle et mode de raisonnement.


Comprendre les modes de benchmark de DeepSeek V4

DeepSeek V4 présente ses résultats sous six configurations :

Configuration Description
V4-Flash Non-Think Rapide, sans chaîne de pensée
V4-Flash Think High Raisonnement étendu modéré
V4-Flash Think Max Effort de raisonnement maximal (Flash)
V4-Pro Non-Think Rapide, sans chaîne de pensée (Pro)
V4-Pro Think High Raisonnement étendu modéré (Pro)
V4-Pro Think Max Raisonnement maximal — meilleurs résultats globaux

La plupart des benchmarks compétitifs rapportent les résultats de V4-Pro-Max. C'est le chiffre cité lorsque vous voyez « DeepSeek V4 » dans les titres.


Benchmarks de codage

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
LiveCodeBench (Pass@1) 91,6 % 93,5 % 88,8 % N/A 91,7 %
Score Codeforces 3052 3206 N/A 3168 3052
HMMT 2026 Feb (Pass@1) 94,8 % 95,2 % 96,2 % 97,7 % 94,7 %
IMOAnswerBench (Pass@1) 88,4 % 89,8 % 75,3 % 91,4 % 81,0 %

Résultats remarquables :

  • V4-Pro-Max obtient le score Codeforces le plus élevé de tous les modèles testés (3206), devançant GPT-5.4 (3168) et Claude Opus 4.6 (N/A)
  • V4-Pro-Max est en tête sur LiveCodeBench (93,5 %) parmi les modèles dont les données sont disponibles
  • En mathématiques de compétition (IMO), GPT-5.4 prend légèrement l'avantage (91,4 % vs 89,8 %)

Benchmarks de connaissances et de raisonnement

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro (EM) 86,2 % 87,5 % 89,1 % 87,5 % 91,0 %
GPQA Diamond (Pass@1) 88,1 % 90,1 % 91,3 % 93,0 % 94,3 %
HLE (Pass@1) 34,8 % 37,7 % 40,0 % 39,8 % 44,4 %
SimpleQA-Verified (Pass@1) 34,1 % 57,9 % 46,2 % 45,3 % 75,6 %
Apex Shortlist (Pass@1) 85,7 % 90,2 % 85,9 % 78,1 % 89,1 %

Observations clés :

  • Gemini-3.1-Pro domine la plupart des benchmarks de connaissances (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
  • V4-Pro-Max est en tête sur Apex Shortlist (90,2 %) — un benchmark de raisonnement exigeant
  • Le score SimpleQA de V4-Pro-Max (57,9 %) dépasse nettement Opus 4.6 (46,2 %) et GPT-5.4 (45,3 %), signe d'une forte capacité de rappel factuel

Benchmarks sur contextes longs

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max Gemini-3.1-Pro High
MRCR 1M (MMR) 78,7 % 83,5 % 92,9 % 76,3 %
CorpusQA 1M (ACC) 60,5 % 62,0 % 71,7 % 53,8 %

Analyse :

  • V4-Pro devance Gemini-3.1-Pro sur CorpusQA 1M (62,0 % vs 53,8 %)
  • Claude Opus 4.6 mène sur MRCR 1M (92,9 % vs 83,5 %) — probablement grâce aux optimisations architecturales de Claude pour la récupération de documents
  • Les deux modèles V4 surpassent confortablement Gemini sur CorpusQA, les rendant très adaptés aux charges de travail RAG

Benchmarks de tâches agentiques

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc) 56,9 % 67,9 % 65,4 % 75,1 % 68,5 %
SWE-bench Verified (Resolved) 79,0 % 80,6 % 80,8 % N/A 80,6 %
SWE-bench Pro (Resolved) 52,6 % 55,4 % 57,3 % 57,7 % 54,2 %
BrowseComp (Pass@1) 73,2 % 83,4 % 83,7 % 82,7 % 85,9 %
MCPAtlas Public (Pass@1) 69,0 % 73,6 % 73,8 % 67,2 % 69,2 %
Toolathlon (Pass@1) 47,8 % 51,8 % 47,2 % 54,6 % 48,8 %

Résultats remarquables :

  • SWE-bench Verified : V4-Pro (80,6 %) à égalité avec Gemini-3.1-Pro (80,6 %) et presque au niveau d'Opus 4.6 (80,8 %) — remarquable pour un modèle ouvert
  • MCPAtlas : V4-Pro (73,6 %) presque à égalité avec Opus 4.6 (73,8 %), le leader de la catégorie
  • Terminal Bench 2.0 : GPT-5.4 est en tête (75,1 %), V4-Pro suit à 67,9 %

Benchmarks du modèle de base

Les résultats du V4-Pro-Base (pré-entraîné, avant l'ajustement aux instructions) démontrent d'impressionnantes capacités brutes :

Benchmark DS-V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (EM) 87,8 % 88,7 % 90,1 %
MMLU-Redux (EM) 87,5 % 89,4 % 90,8 %
GSM8K (EM) 91,1 % 90,8 % 92,6 %
HumanEval (Pass@1) 62,8 % 69,5 % 76,8 %
LongBench-V2 (EM) 40,2 % 44,7 % 51,5 %

V4-Pro-Base surpasse systématiquement V3.2-Base et V4-Flash-Base dans toutes les catégories.


Synthèse : points forts et points faibles de DeepSeek V4

V4-Pro-Max est en tête sur :

  • La programmation compétitive Codeforces (score 3206)
  • LiveCodeBench (93,5 %)
  • Le raisonnement Apex Shortlist (90,2 %)
  • Le rappel factuel SimpleQA (57,9 %) face à la plupart des modèles non-Gemini

V4-Pro-Max est en retrait sur :

  • GPQA Diamond (Gemini en tête à 94,3 %)
  • HLE raisonnement le plus difficile (Gemini en tête à 44,4 %)
  • MRCR 1M contexte long (Opus 4.6 en tête à 92,9 %)
  • Terminal Bench 2.0 tâches agentiques (GPT-5.4 en tête à 75,1 %)

Pour les plateformes et outils natifs à l'IA comme Framia.pro, où le codage, les tâches agentiques et la compréhension de contextes longs sont des cas d'usage fondamentaux, le profil de benchmark de DeepSeek V4-Pro en fait l'un des choix les plus convaincants disponibles en 2026.


Conclusion

DeepSeek V4-Pro est le meilleur modèle à poids ouverts dans presque toutes les catégories de benchmarks, et il rivalise sérieusement avec tous les modèles frontier propriétaires. Sa performance la plus exceptionnelle se situe dans le codage compétitif, où il surpasse tous les autres modèles testés. Il accuse un léger retard sur les tâches de raisonnement scientifique les plus difficiles et la récupération de longs documents, mais l'écart se réduit.