Benchmarks DeepSeek V4 : analyse complète des scores (2026)

DeepSeek V4-Pro obtient 93,5 % sur LiveCodeBench, 3206 sur Codeforces et 90,1 % sur GPQA Diamond. Analyse détaillée par mode et par concurrent.

Benchmarks DeepSeek V4 : résultats sur LiveCodeBench, MMLU, SWE-bench et plus encore

DeepSeek V4 est arrivé le 24 avril 2026 avec de grandes ambitions : le meilleur modèle open source disponible, un score Codeforces record et des performances proches des modèles frontier en raisonnement, connaissances et tâches agentiques. Voici une analyse complète de tous les grands résultats de benchmarks, classés par variante de modèle et mode de raisonnement.

Comprendre les modes de benchmark de DeepSeek V4

DeepSeek V4 présente ses résultats sous six configurations :

Configuration	Description
V4-Flash Non-Think	Rapide, sans chaîne de pensée
V4-Flash Think High	Raisonnement étendu modéré
V4-Flash Think Max	Effort de raisonnement maximal (Flash)
V4-Pro Non-Think	Rapide, sans chaîne de pensée (Pro)
V4-Pro Think High	Raisonnement étendu modéré (Pro)
V4-Pro Think Max	Raisonnement maximal — meilleurs résultats globaux

La plupart des benchmarks compétitifs rapportent les résultats de V4-Pro-Max. C'est le chiffre cité lorsque vous voyez « DeepSeek V4 » dans les titres.

Benchmarks de codage

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
LiveCodeBench (Pass@1)	91,6 %	93,5 %	88,8 %	N/A	91,7 %
Score Codeforces	3052	3206	N/A	3168	3052
HMMT 2026 Feb (Pass@1)	94,8 %	95,2 %	96,2 %	97,7 %	94,7 %
IMOAnswerBench (Pass@1)	88,4 %	89,8 %	75,3 %	91,4 %	81,0 %

Résultats remarquables :

V4-Pro-Max obtient le score Codeforces le plus élevé de tous les modèles testés (3206), devançant GPT-5.4 (3168) et Claude Opus 4.6 (N/A)
V4-Pro-Max est en tête sur LiveCodeBench (93,5 %) parmi les modèles dont les données sont disponibles
En mathématiques de compétition (IMO), GPT-5.4 prend légèrement l'avantage (91,4 % vs 89,8 %)

Benchmarks de connaissances et de raisonnement

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro (EM)	86,2 %	87,5 %	89,1 %	87,5 %	91,0 %
GPQA Diamond (Pass@1)	88,1 %	90,1 %	91,3 %	93,0 %	94,3 %
HLE (Pass@1)	34,8 %	37,7 %	40,0 %	39,8 %	44,4 %
SimpleQA-Verified (Pass@1)	34,1 %	57,9 %	46,2 %	45,3 %	75,6 %
Apex Shortlist (Pass@1)	85,7 %	90,2 %	85,9 %	78,1 %	89,1 %

Observations clés :

Gemini-3.1-Pro domine la plupart des benchmarks de connaissances (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
V4-Pro-Max est en tête sur Apex Shortlist (90,2 %) — un benchmark de raisonnement exigeant
Le score SimpleQA de V4-Pro-Max (57,9 %) dépasse nettement Opus 4.6 (46,2 %) et GPT-5.4 (45,3 %), signe d'une forte capacité de rappel factuel

Benchmarks sur contextes longs

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	Gemini-3.1-Pro High
MRCR 1M (MMR)	78,7 %	83,5 %	92,9 %	76,3 %
CorpusQA 1M (ACC)	60,5 %	62,0 %	71,7 %	53,8 %

Analyse :

V4-Pro devance Gemini-3.1-Pro sur CorpusQA 1M (62,0 % vs 53,8 %)
Claude Opus 4.6 mène sur MRCR 1M (92,9 % vs 83,5 %) — probablement grâce aux optimisations architecturales de Claude pour la récupération de documents
Les deux modèles V4 surpassent confortablement Gemini sur CorpusQA, les rendant très adaptés aux charges de travail RAG

Benchmarks de tâches agentiques

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc)	56,9 %	67,9 %	65,4 %	75,1 %	68,5 %
SWE-bench Verified (Resolved)	79,0 %	80,6 %	80,8 %	N/A	80,6 %
SWE-bench Pro (Resolved)	52,6 %	55,4 %	57,3 %	57,7 %	54,2 %
BrowseComp (Pass@1)	73,2 %	83,4 %	83,7 %	82,7 %	85,9 %
MCPAtlas Public (Pass@1)	69,0 %	73,6 %	73,8 %	67,2 %	69,2 %
Toolathlon (Pass@1)	47,8 %	51,8 %	47,2 %	54,6 %	48,8 %

Résultats remarquables :

SWE-bench Verified : V4-Pro (80,6 %) à égalité avec Gemini-3.1-Pro (80,6 %) et presque au niveau d'Opus 4.6 (80,8 %) — remarquable pour un modèle ouvert
MCPAtlas : V4-Pro (73,6 %) presque à égalité avec Opus 4.6 (73,8 %), le leader de la catégorie
Terminal Bench 2.0 : GPT-5.4 est en tête (75,1 %), V4-Pro suit à 67,9 %

Benchmarks du modèle de base

Les résultats du V4-Pro-Base (pré-entraîné, avant l'ajustement aux instructions) démontrent d'impressionnantes capacités brutes :

Benchmark	DS-V3.2-Base	V4-Flash-Base	V4-Pro-Base
MMLU (EM)	87,8 %	88,7 %	90,1 %
MMLU-Redux (EM)	87,5 %	89,4 %	90,8 %
GSM8K (EM)	91,1 %	90,8 %	92,6 %
HumanEval (Pass@1)	62,8 %	69,5 %	76,8 %
LongBench-V2 (EM)	40,2 %	44,7 %	51,5 %

V4-Pro-Base surpasse systématiquement V3.2-Base et V4-Flash-Base dans toutes les catégories.

Synthèse : points forts et points faibles de DeepSeek V4

V4-Pro-Max est en tête sur :

La programmation compétitive Codeforces (score 3206)
LiveCodeBench (93,5 %)
Le raisonnement Apex Shortlist (90,2 %)
Le rappel factuel SimpleQA (57,9 %) face à la plupart des modèles non-Gemini

V4-Pro-Max est en retrait sur :

GPQA Diamond (Gemini en tête à 94,3 %)
HLE raisonnement le plus difficile (Gemini en tête à 44,4 %)
MRCR 1M contexte long (Opus 4.6 en tête à 92,9 %)
Terminal Bench 2.0 tâches agentiques (GPT-5.4 en tête à 75,1 %)

Pour les plateformes et outils natifs à l'IA comme Framia.pro, où le codage, les tâches agentiques et la compréhension de contextes longs sont des cas d'usage fondamentaux, le profil de benchmark de DeepSeek V4-Pro en fait l'un des choix les plus convaincants disponibles en 2026.

Conclusion

DeepSeek V4-Pro est le meilleur modèle à poids ouverts dans presque toutes les catégories de benchmarks, et il rivalise sérieusement avec tous les modèles frontier propriétaires. Sa performance la plus exceptionnelle se situe dans le codage compétitif, où il surpasse tous les autres modèles testés. Il accuse un léger retard sur les tâches de raisonnement scientifique les plus difficiles et la récupération de longs documents, mais l'écart se réduit.