Benchmarks de DeepSeek V4: Análisis completo de puntuaciones (2026)

DeepSeek V4-Pro logra un 93,5 % en LiveCodeBench, 3206 en Codeforces y un 90,1 % en GPQA Diamond. Análisis completo de benchmarks por modo y por competidor.

Benchmarks de DeepSeek V4: Resultados en LiveCodeBench, MMLU, SWE-bench y más

DeepSeek V4 llegó el 24 de abril de 2026 con grandes promesas: el mejor modelo de código abierto disponible, una puntuación récord en Codeforces y un rendimiento cercano a la frontera del estado del arte en tareas de razonamiento, conocimiento y agentivas. Aquí tienes un análisis completo de todos los resultados en los principales benchmarks, desglosados por variante de modelo y modo de razonamiento.

Los modos de benchmark de DeepSeek V4

DeepSeek V4 presenta resultados en seis configuraciones:

Configuración	Descripción
V4-Flash Non-Think	Rápido, sin cadena de pensamiento
V4-Flash Think High	Razonamiento extendido moderado
V4-Flash Think Max	Máximo esfuerzo de razonamiento (Flash)
V4-Pro Non-Think	Rápido, sin cadena de pensamiento (Pro)
V4-Pro Think High	Razonamiento extendido moderado (Pro)
V4-Pro Think Max	Razonamiento máximo — mejores resultados globales

La mayoría de los benchmarks competitivos reportan los resultados de V4-Pro-Max. Es la cifra que se cita cada vez que ves «DeepSeek V4» en los titulares.

Benchmarks de programación

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
LiveCodeBench (Pass@1)	91,6 %	93,5 %	88,8 %	N/A	91,7 %
Puntuación Codeforces	3052	3206	N/A	3168	3052
HMMT 2026 Feb (Pass@1)	94,8 %	95,2 %	96,2 %	97,7 %	94,7 %
IMOAnswerBench (Pass@1)	88,4 %	89,8 %	75,3 %	91,4 %	81,0 %

Resultados destacados:

V4-Pro-Max logra la puntuación más alta en Codeforces de todos los modelos evaluados (3206), superando a GPT-5.4 (3168) y Claude Opus 4.6 (N/A)
V4-Pro-Max lidera en LiveCodeBench (93,5 %) entre los modelos con datos disponibles
En matemáticas de competición (IMO), GPT-5.4 se adelanta ligeramente (91,4 % vs 89,8 %)

Benchmarks de conocimiento y razonamiento

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro (EM)	86,2 %	87,5 %	89,1 %	87,5 %	91,0 %
GPQA Diamond (Pass@1)	88,1 %	90,1 %	91,3 %	93,0 %	94,3 %
HLE (Pass@1)	34,8 %	37,7 %	40,0 %	39,8 %	44,4 %
SimpleQA-Verified (Pass@1)	34,1 %	57,9 %	46,2 %	45,3 %	75,6 %
Apex Shortlist (Pass@1)	85,7 %	90,2 %	85,9 %	78,1 %	89,1 %

Observaciones clave:

Gemini-3.1-Pro lidera en la mayoría de los benchmarks de conocimiento (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
V4-Pro-Max lidera en Apex Shortlist (90,2 %) — un exigente benchmark de razonamiento
La puntuación de V4-Pro-Max en SimpleQA (57,9 %) supera ampliamente a Opus 4.6 (46,2 %) y GPT-5.4 (45,3 %), lo que indica una fuerte capacidad de recuperación de hechos

Benchmarks de contexto largo

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	Gemini-3.1-Pro High
MRCR 1M (MMR)	78,7 %	83,5 %	92,9 %	76,3 %
CorpusQA 1M (ACC)	60,5 %	62,0 %	71,7 %	53,8 %

Análisis:

V4-Pro supera a Gemini-3.1-Pro en CorpusQA 1M (62,0 % vs 53,8 %)
Claude Opus 4.6 lidera en MRCR 1M (92,9 % vs 83,5 %) — probablemente gracias a las optimizaciones de arquitectura de Claude para la recuperación de documentos
Ambos modelos V4 superan cómodamente a Gemini en CorpusQA, lo que los hace muy adecuados para cargas de trabajo RAG

Benchmarks de tareas agentivas

Benchmark	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc)	56,9 %	67,9 %	65,4 %	75,1 %	68,5 %
SWE-bench Verified (Resolved)	79,0 %	80,6 %	80,8 %	N/A	80,6 %
SWE-bench Pro (Resolved)	52,6 %	55,4 %	57,3 %	57,7 %	54,2 %
BrowseComp (Pass@1)	73,2 %	83,4 %	83,7 %	82,7 %	85,9 %
MCPAtlas Public (Pass@1)	69,0 %	73,6 %	73,8 %	67,2 %	69,2 %
Toolathlon (Pass@1)	47,8 %	51,8 %	47,2 %	54,6 %	48,8 %

Resultados destacados:

SWE-bench Verified: V4-Pro (80,6 %) empata con Gemini-3.1-Pro (80,6 %) y casi iguala a Opus 4.6 (80,8 %) — notable para un modelo abierto
MCPAtlas: V4-Pro (73,6 %) casi iguala al líder de la categoría, Opus 4.6 (73,8 %)
Terminal Bench 2.0: GPT-5.4 lidera (75,1 %), con V4-Pro en 67,9 %

Benchmarks del modelo base

Los resultados de V4-Pro-Base (preentrenado, antes del ajuste de instrucciones) muestran una capacidad bruta impresionante:

Benchmark	DS-V3.2-Base	V4-Flash-Base	V4-Pro-Base
MMLU (EM)	87,8 %	88,7 %	90,1 %
MMLU-Redux (EM)	87,5 %	89,4 %	90,8 %
GSM8K (EM)	91,1 %	90,8 %	92,6 %
HumanEval (Pass@1)	62,8 %	69,5 %	76,8 %
LongBench-V2 (EM)	40,2 %	44,7 %	51,5 %

V4-Pro-Base supera sistemáticamente tanto a V3.2-Base como a V4-Flash-Base en todas las categorías.

Resumen: dónde DeepSeek V4 lidera y dónde se queda atrás

V4-Pro-Max lidera en:

Programación competitiva en Codeforces (puntuación 3206)
LiveCodeBench (93,5 %)
Razonamiento Apex Shortlist (90,2 %)
Recuperación de hechos SimpleQA (57,9 %) frente a la mayoría de modelos no Gemini

V4-Pro-Max se queda atrás en:

GPQA Diamond (Gemini lidera con 94,3 %)
Razonamiento más difícil HLE (Gemini lidera con 44,4 %)
Contexto largo MRCR 1M (Opus 4.6 lidera con 92,9 %)
Tareas agentivas Terminal Bench 2.0 (GPT-5.4 lidera con 75,1 %)

Para plataformas y herramientas nativas de IA como Framia.pro, donde la programación, las tareas agentivas y la comprensión de contextos largos son casos de uso fundamentales, el perfil de benchmarks de DeepSeek V4-Pro lo convierte en una de las opciones más convincentes disponibles en 2026.

Conclusión

DeepSeek V4-Pro es el mejor modelo de pesos abiertos en casi todas las categorías de benchmarks, y compite de forma significativa con todos los modelos frontier de código cerrado. Su rendimiento más excepcional se da en la programación competitiva, donde supera a todos los demás modelos evaluados. Queda algo rezagado en las tareas de razonamiento científico más difíciles y en la recuperación de documentos largos, pero las diferencias se van reduciendo.