Benchmarks de DeepSeek V4: Resultados en LiveCodeBench, MMLU, SWE-bench y más

DeepSeek V4-Pro logra un 93,5 % en LiveCodeBench, 3206 en Codeforces y un 90,1 % en GPQA Diamond. Análisis completo de benchmarks por modo y por competidor.

by Framia

Benchmarks de DeepSeek V4: Resultados en LiveCodeBench, MMLU, SWE-bench y más

DeepSeek V4 llegó el 24 de abril de 2026 con grandes promesas: el mejor modelo de código abierto disponible, una puntuación récord en Codeforces y un rendimiento cercano a la frontera del estado del arte en tareas de razonamiento, conocimiento y agentivas. Aquí tienes un análisis completo de todos los resultados en los principales benchmarks, desglosados por variante de modelo y modo de razonamiento.


Los modos de benchmark de DeepSeek V4

DeepSeek V4 presenta resultados en seis configuraciones:

Configuración Descripción
V4-Flash Non-Think Rápido, sin cadena de pensamiento
V4-Flash Think High Razonamiento extendido moderado
V4-Flash Think Max Máximo esfuerzo de razonamiento (Flash)
V4-Pro Non-Think Rápido, sin cadena de pensamiento (Pro)
V4-Pro Think High Razonamiento extendido moderado (Pro)
V4-Pro Think Max Razonamiento máximo — mejores resultados globales

La mayoría de los benchmarks competitivos reportan los resultados de V4-Pro-Max. Es la cifra que se cita cada vez que ves «DeepSeek V4» en los titulares.


Benchmarks de programación

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
LiveCodeBench (Pass@1) 91,6 % 93,5 % 88,8 % N/A 91,7 %
Puntuación Codeforces 3052 3206 N/A 3168 3052
HMMT 2026 Feb (Pass@1) 94,8 % 95,2 % 96,2 % 97,7 % 94,7 %
IMOAnswerBench (Pass@1) 88,4 % 89,8 % 75,3 % 91,4 % 81,0 %

Resultados destacados:

  • V4-Pro-Max logra la puntuación más alta en Codeforces de todos los modelos evaluados (3206), superando a GPT-5.4 (3168) y Claude Opus 4.6 (N/A)
  • V4-Pro-Max lidera en LiveCodeBench (93,5 %) entre los modelos con datos disponibles
  • En matemáticas de competición (IMO), GPT-5.4 se adelanta ligeramente (91,4 % vs 89,8 %)

Benchmarks de conocimiento y razonamiento

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro (EM) 86,2 % 87,5 % 89,1 % 87,5 % 91,0 %
GPQA Diamond (Pass@1) 88,1 % 90,1 % 91,3 % 93,0 % 94,3 %
HLE (Pass@1) 34,8 % 37,7 % 40,0 % 39,8 % 44,4 %
SimpleQA-Verified (Pass@1) 34,1 % 57,9 % 46,2 % 45,3 % 75,6 %
Apex Shortlist (Pass@1) 85,7 % 90,2 % 85,9 % 78,1 % 89,1 %

Observaciones clave:

  • Gemini-3.1-Pro lidera en la mayoría de los benchmarks de conocimiento (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
  • V4-Pro-Max lidera en Apex Shortlist (90,2 %) — un exigente benchmark de razonamiento
  • La puntuación de V4-Pro-Max en SimpleQA (57,9 %) supera ampliamente a Opus 4.6 (46,2 %) y GPT-5.4 (45,3 %), lo que indica una fuerte capacidad de recuperación de hechos

Benchmarks de contexto largo

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max Gemini-3.1-Pro High
MRCR 1M (MMR) 78,7 % 83,5 % 92,9 % 76,3 %
CorpusQA 1M (ACC) 60,5 % 62,0 % 71,7 % 53,8 %

Análisis:

  • V4-Pro supera a Gemini-3.1-Pro en CorpusQA 1M (62,0 % vs 53,8 %)
  • Claude Opus 4.6 lidera en MRCR 1M (92,9 % vs 83,5 %) — probablemente gracias a las optimizaciones de arquitectura de Claude para la recuperación de documentos
  • Ambos modelos V4 superan cómodamente a Gemini en CorpusQA, lo que los hace muy adecuados para cargas de trabajo RAG

Benchmarks de tareas agentivas

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc) 56,9 % 67,9 % 65,4 % 75,1 % 68,5 %
SWE-bench Verified (Resolved) 79,0 % 80,6 % 80,8 % N/A 80,6 %
SWE-bench Pro (Resolved) 52,6 % 55,4 % 57,3 % 57,7 % 54,2 %
BrowseComp (Pass@1) 73,2 % 83,4 % 83,7 % 82,7 % 85,9 %
MCPAtlas Public (Pass@1) 69,0 % 73,6 % 73,8 % 67,2 % 69,2 %
Toolathlon (Pass@1) 47,8 % 51,8 % 47,2 % 54,6 % 48,8 %

Resultados destacados:

  • SWE-bench Verified: V4-Pro (80,6 %) empata con Gemini-3.1-Pro (80,6 %) y casi iguala a Opus 4.6 (80,8 %) — notable para un modelo abierto
  • MCPAtlas: V4-Pro (73,6 %) casi iguala al líder de la categoría, Opus 4.6 (73,8 %)
  • Terminal Bench 2.0: GPT-5.4 lidera (75,1 %), con V4-Pro en 67,9 %

Benchmarks del modelo base

Los resultados de V4-Pro-Base (preentrenado, antes del ajuste de instrucciones) muestran una capacidad bruta impresionante:

Benchmark DS-V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (EM) 87,8 % 88,7 % 90,1 %
MMLU-Redux (EM) 87,5 % 89,4 % 90,8 %
GSM8K (EM) 91,1 % 90,8 % 92,6 %
HumanEval (Pass@1) 62,8 % 69,5 % 76,8 %
LongBench-V2 (EM) 40,2 % 44,7 % 51,5 %

V4-Pro-Base supera sistemáticamente tanto a V3.2-Base como a V4-Flash-Base en todas las categorías.


Resumen: dónde DeepSeek V4 lidera y dónde se queda atrás

V4-Pro-Max lidera en:

  • Programación competitiva en Codeforces (puntuación 3206)
  • LiveCodeBench (93,5 %)
  • Razonamiento Apex Shortlist (90,2 %)
  • Recuperación de hechos SimpleQA (57,9 %) frente a la mayoría de modelos no Gemini

V4-Pro-Max se queda atrás en:

  • GPQA Diamond (Gemini lidera con 94,3 %)
  • Razonamiento más difícil HLE (Gemini lidera con 44,4 %)
  • Contexto largo MRCR 1M (Opus 4.6 lidera con 92,9 %)
  • Tareas agentivas Terminal Bench 2.0 (GPT-5.4 lidera con 75,1 %)

Para plataformas y herramientas nativas de IA como Framia.pro, donde la programación, las tareas agentivas y la comprensión de contextos largos son casos de uso fundamentales, el perfil de benchmarks de DeepSeek V4-Pro lo convierte en una de las opciones más convincentes disponibles en 2026.


Conclusión

DeepSeek V4-Pro es el mejor modelo de pesos abiertos en casi todas las categorías de benchmarks, y compite de forma significativa con todos los modelos frontier de código cerrado. Su rendimiento más excepcional se da en la programación competitiva, donde supera a todos los demás modelos evaluados. Queda algo rezagado en las tareas de razonamiento científico más difíciles y en la recuperación de documentos largos, pero las diferencias se van reduciendo.