Benchmarks de DeepSeek V4: Resultados en LiveCodeBench, MMLU, SWE-bench y más
DeepSeek V4 llegó el 24 de abril de 2026 con grandes promesas: el mejor modelo de código abierto disponible, una puntuación récord en Codeforces y un rendimiento cercano a la frontera del estado del arte en tareas de razonamiento, conocimiento y agentivas. Aquí tienes un análisis completo de todos los resultados en los principales benchmarks, desglosados por variante de modelo y modo de razonamiento.
Los modos de benchmark de DeepSeek V4
DeepSeek V4 presenta resultados en seis configuraciones:
| Configuración | Descripción |
|---|---|
| V4-Flash Non-Think | Rápido, sin cadena de pensamiento |
| V4-Flash Think High | Razonamiento extendido moderado |
| V4-Flash Think Max | Máximo esfuerzo de razonamiento (Flash) |
| V4-Pro Non-Think | Rápido, sin cadena de pensamiento (Pro) |
| V4-Pro Think High | Razonamiento extendido moderado (Pro) |
| V4-Pro Think Max | Razonamiento máximo — mejores resultados globales |
La mayoría de los benchmarks competitivos reportan los resultados de V4-Pro-Max. Es la cifra que se cita cada vez que ves «DeepSeek V4» en los titulares.
Benchmarks de programación
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91,6 % | 93,5 % | 88,8 % | N/A | 91,7 % |
| Puntuación Codeforces | 3052 | 3206 | N/A | 3168 | 3052 |
| HMMT 2026 Feb (Pass@1) | 94,8 % | 95,2 % | 96,2 % | 97,7 % | 94,7 % |
| IMOAnswerBench (Pass@1) | 88,4 % | 89,8 % | 75,3 % | 91,4 % | 81,0 % |
Resultados destacados:
- V4-Pro-Max logra la puntuación más alta en Codeforces de todos los modelos evaluados (3206), superando a GPT-5.4 (3168) y Claude Opus 4.6 (N/A)
- V4-Pro-Max lidera en LiveCodeBench (93,5 %) entre los modelos con datos disponibles
- En matemáticas de competición (IMO), GPT-5.4 se adelanta ligeramente (91,4 % vs 89,8 %)
Benchmarks de conocimiento y razonamiento
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 86,2 % | 87,5 % | 89,1 % | 87,5 % | 91,0 % |
| GPQA Diamond (Pass@1) | 88,1 % | 90,1 % | 91,3 % | 93,0 % | 94,3 % |
| HLE (Pass@1) | 34,8 % | 37,7 % | 40,0 % | 39,8 % | 44,4 % |
| SimpleQA-Verified (Pass@1) | 34,1 % | 57,9 % | 46,2 % | 45,3 % | 75,6 % |
| Apex Shortlist (Pass@1) | 85,7 % | 90,2 % | 85,9 % | 78,1 % | 89,1 % |
Observaciones clave:
- Gemini-3.1-Pro lidera en la mayoría de los benchmarks de conocimiento (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
- V4-Pro-Max lidera en Apex Shortlist (90,2 %) — un exigente benchmark de razonamiento
- La puntuación de V4-Pro-Max en SimpleQA (57,9 %) supera ampliamente a Opus 4.6 (46,2 %) y GPT-5.4 (45,3 %), lo que indica una fuerte capacidad de recuperación de hechos
Benchmarks de contexto largo
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | Gemini-3.1-Pro High |
|---|---|---|---|---|
| MRCR 1M (MMR) | 78,7 % | 83,5 % | 92,9 % | 76,3 % |
| CorpusQA 1M (ACC) | 60,5 % | 62,0 % | 71,7 % | 53,8 % |
Análisis:
- V4-Pro supera a Gemini-3.1-Pro en CorpusQA 1M (62,0 % vs 53,8 %)
- Claude Opus 4.6 lidera en MRCR 1M (92,9 % vs 83,5 %) — probablemente gracias a las optimizaciones de arquitectura de Claude para la recuperación de documentos
- Ambos modelos V4 superan cómodamente a Gemini en CorpusQA, lo que los hace muy adecuados para cargas de trabajo RAG
Benchmarks de tareas agentivas
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| Terminal Bench 2.0 (Acc) | 56,9 % | 67,9 % | 65,4 % | 75,1 % | 68,5 % |
| SWE-bench Verified (Resolved) | 79,0 % | 80,6 % | 80,8 % | N/A | 80,6 % |
| SWE-bench Pro (Resolved) | 52,6 % | 55,4 % | 57,3 % | 57,7 % | 54,2 % |
| BrowseComp (Pass@1) | 73,2 % | 83,4 % | 83,7 % | 82,7 % | 85,9 % |
| MCPAtlas Public (Pass@1) | 69,0 % | 73,6 % | 73,8 % | 67,2 % | 69,2 % |
| Toolathlon (Pass@1) | 47,8 % | 51,8 % | 47,2 % | 54,6 % | 48,8 % |
Resultados destacados:
- SWE-bench Verified: V4-Pro (80,6 %) empata con Gemini-3.1-Pro (80,6 %) y casi iguala a Opus 4.6 (80,8 %) — notable para un modelo abierto
- MCPAtlas: V4-Pro (73,6 %) casi iguala al líder de la categoría, Opus 4.6 (73,8 %)
- Terminal Bench 2.0: GPT-5.4 lidera (75,1 %), con V4-Pro en 67,9 %
Benchmarks del modelo base
Los resultados de V4-Pro-Base (preentrenado, antes del ajuste de instrucciones) muestran una capacidad bruta impresionante:
| Benchmark | DS-V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (EM) | 87,8 % | 88,7 % | 90,1 % |
| MMLU-Redux (EM) | 87,5 % | 89,4 % | 90,8 % |
| GSM8K (EM) | 91,1 % | 90,8 % | 92,6 % |
| HumanEval (Pass@1) | 62,8 % | 69,5 % | 76,8 % |
| LongBench-V2 (EM) | 40,2 % | 44,7 % | 51,5 % |
V4-Pro-Base supera sistemáticamente tanto a V3.2-Base como a V4-Flash-Base en todas las categorías.
Resumen: dónde DeepSeek V4 lidera y dónde se queda atrás
V4-Pro-Max lidera en:
- Programación competitiva en Codeforces (puntuación 3206)
- LiveCodeBench (93,5 %)
- Razonamiento Apex Shortlist (90,2 %)
- Recuperación de hechos SimpleQA (57,9 %) frente a la mayoría de modelos no Gemini
V4-Pro-Max se queda atrás en:
- GPQA Diamond (Gemini lidera con 94,3 %)
- Razonamiento más difícil HLE (Gemini lidera con 44,4 %)
- Contexto largo MRCR 1M (Opus 4.6 lidera con 92,9 %)
- Tareas agentivas Terminal Bench 2.0 (GPT-5.4 lidera con 75,1 %)
Para plataformas y herramientas nativas de IA como Framia.pro, donde la programación, las tareas agentivas y la comprensión de contextos largos son casos de uso fundamentales, el perfil de benchmarks de DeepSeek V4-Pro lo convierte en una de las opciones más convincentes disponibles en 2026.
Conclusión
DeepSeek V4-Pro es el mejor modelo de pesos abiertos en casi todas las categorías de benchmarks, y compite de forma significativa con todos los modelos frontier de código cerrado. Su rendimiento más excepcional se da en la programación competitiva, donde supera a todos los demás modelos evaluados. Queda algo rezagado en las tareas de razonamiento científico más difíciles y en la recuperación de documentos largos, pero las diferencias se van reduciendo.