Benchmarks DeepSeek V4 : résultats sur LiveCodeBench, MMLU, SWE-bench et plus encore
DeepSeek V4 est arrivé le 24 avril 2026 avec de grandes ambitions : le meilleur modèle open source disponible, un score Codeforces record et des performances proches des modèles frontier en raisonnement, connaissances et tâches agentiques. Voici une analyse complète de tous les grands résultats de benchmarks, classés par variante de modèle et mode de raisonnement.
Comprendre les modes de benchmark de DeepSeek V4
DeepSeek V4 présente ses résultats sous six configurations :
| Configuration | Description |
|---|---|
| V4-Flash Non-Think | Rapide, sans chaîne de pensée |
| V4-Flash Think High | Raisonnement étendu modéré |
| V4-Flash Think Max | Effort de raisonnement maximal (Flash) |
| V4-Pro Non-Think | Rapide, sans chaîne de pensée (Pro) |
| V4-Pro Think High | Raisonnement étendu modéré (Pro) |
| V4-Pro Think Max | Raisonnement maximal — meilleurs résultats globaux |
La plupart des benchmarks compétitifs rapportent les résultats de V4-Pro-Max. C'est le chiffre cité lorsque vous voyez « DeepSeek V4 » dans les titres.
Benchmarks de codage
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91,6 % | 93,5 % | 88,8 % | N/A | 91,7 % |
| Score Codeforces | 3052 | 3206 | N/A | 3168 | 3052 |
| HMMT 2026 Feb (Pass@1) | 94,8 % | 95,2 % | 96,2 % | 97,7 % | 94,7 % |
| IMOAnswerBench (Pass@1) | 88,4 % | 89,8 % | 75,3 % | 91,4 % | 81,0 % |
Résultats remarquables :
- V4-Pro-Max obtient le score Codeforces le plus élevé de tous les modèles testés (3206), devançant GPT-5.4 (3168) et Claude Opus 4.6 (N/A)
- V4-Pro-Max est en tête sur LiveCodeBench (93,5 %) parmi les modèles dont les données sont disponibles
- En mathématiques de compétition (IMO), GPT-5.4 prend légèrement l'avantage (91,4 % vs 89,8 %)
Benchmarks de connaissances et de raisonnement
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 86,2 % | 87,5 % | 89,1 % | 87,5 % | 91,0 % |
| GPQA Diamond (Pass@1) | 88,1 % | 90,1 % | 91,3 % | 93,0 % | 94,3 % |
| HLE (Pass@1) | 34,8 % | 37,7 % | 40,0 % | 39,8 % | 44,4 % |
| SimpleQA-Verified (Pass@1) | 34,1 % | 57,9 % | 46,2 % | 45,3 % | 75,6 % |
| Apex Shortlist (Pass@1) | 85,7 % | 90,2 % | 85,9 % | 78,1 % | 89,1 % |
Observations clés :
- Gemini-3.1-Pro domine la plupart des benchmarks de connaissances (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
- V4-Pro-Max est en tête sur Apex Shortlist (90,2 %) — un benchmark de raisonnement exigeant
- Le score SimpleQA de V4-Pro-Max (57,9 %) dépasse nettement Opus 4.6 (46,2 %) et GPT-5.4 (45,3 %), signe d'une forte capacité de rappel factuel
Benchmarks sur contextes longs
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | Gemini-3.1-Pro High |
|---|---|---|---|---|
| MRCR 1M (MMR) | 78,7 % | 83,5 % | 92,9 % | 76,3 % |
| CorpusQA 1M (ACC) | 60,5 % | 62,0 % | 71,7 % | 53,8 % |
Analyse :
- V4-Pro devance Gemini-3.1-Pro sur CorpusQA 1M (62,0 % vs 53,8 %)
- Claude Opus 4.6 mène sur MRCR 1M (92,9 % vs 83,5 %) — probablement grâce aux optimisations architecturales de Claude pour la récupération de documents
- Les deux modèles V4 surpassent confortablement Gemini sur CorpusQA, les rendant très adaptés aux charges de travail RAG
Benchmarks de tâches agentiques
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| Terminal Bench 2.0 (Acc) | 56,9 % | 67,9 % | 65,4 % | 75,1 % | 68,5 % |
| SWE-bench Verified (Resolved) | 79,0 % | 80,6 % | 80,8 % | N/A | 80,6 % |
| SWE-bench Pro (Resolved) | 52,6 % | 55,4 % | 57,3 % | 57,7 % | 54,2 % |
| BrowseComp (Pass@1) | 73,2 % | 83,4 % | 83,7 % | 82,7 % | 85,9 % |
| MCPAtlas Public (Pass@1) | 69,0 % | 73,6 % | 73,8 % | 67,2 % | 69,2 % |
| Toolathlon (Pass@1) | 47,8 % | 51,8 % | 47,2 % | 54,6 % | 48,8 % |
Résultats remarquables :
- SWE-bench Verified : V4-Pro (80,6 %) à égalité avec Gemini-3.1-Pro (80,6 %) et presque au niveau d'Opus 4.6 (80,8 %) — remarquable pour un modèle ouvert
- MCPAtlas : V4-Pro (73,6 %) presque à égalité avec Opus 4.6 (73,8 %), le leader de la catégorie
- Terminal Bench 2.0 : GPT-5.4 est en tête (75,1 %), V4-Pro suit à 67,9 %
Benchmarks du modèle de base
Les résultats du V4-Pro-Base (pré-entraîné, avant l'ajustement aux instructions) démontrent d'impressionnantes capacités brutes :
| Benchmark | DS-V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (EM) | 87,8 % | 88,7 % | 90,1 % |
| MMLU-Redux (EM) | 87,5 % | 89,4 % | 90,8 % |
| GSM8K (EM) | 91,1 % | 90,8 % | 92,6 % |
| HumanEval (Pass@1) | 62,8 % | 69,5 % | 76,8 % |
| LongBench-V2 (EM) | 40,2 % | 44,7 % | 51,5 % |
V4-Pro-Base surpasse systématiquement V3.2-Base et V4-Flash-Base dans toutes les catégories.
Synthèse : points forts et points faibles de DeepSeek V4
V4-Pro-Max est en tête sur :
- La programmation compétitive Codeforces (score 3206)
- LiveCodeBench (93,5 %)
- Le raisonnement Apex Shortlist (90,2 %)
- Le rappel factuel SimpleQA (57,9 %) face à la plupart des modèles non-Gemini
V4-Pro-Max est en retrait sur :
- GPQA Diamond (Gemini en tête à 94,3 %)
- HLE raisonnement le plus difficile (Gemini en tête à 44,4 %)
- MRCR 1M contexte long (Opus 4.6 en tête à 92,9 %)
- Terminal Bench 2.0 tâches agentiques (GPT-5.4 en tête à 75,1 %)
Pour les plateformes et outils natifs à l'IA comme Framia.pro, où le codage, les tâches agentiques et la compréhension de contextes longs sont des cas d'usage fondamentaux, le profil de benchmark de DeepSeek V4-Pro en fait l'un des choix les plus convaincants disponibles en 2026.
Conclusion
DeepSeek V4-Pro est le meilleur modèle à poids ouverts dans presque toutes les catégories de benchmarks, et il rivalise sérieusement avec tous les modèles frontier propriétaires. Sa performance la plus exceptionnelle se situe dans le codage compétitif, où il surpasse tous les autres modèles testés. Il accuse un léger retard sur les tâches de raisonnement scientifique les plus difficiles et la récupération de longs documents, mais l'écart se réduit.