DeepSeek V4 vs DeepSeek V3: ¿Cuánto ha mejorado?

Comparativa DeepSeek V4 vs V3.2: ventana de contexto 8× mayor, arquitectura Hybrid Attention, optimizador Muon, 32T tokens de entrenamiento. Todos los benchmarks analizados.

by Framia

DeepSeek V4 vs DeepSeek V3: ¿Cuánto ha mejorado?

DeepSeek V3 — en concreto, V3.2 — fue ampliamente reconocido como uno de los mejores modelos de código abierto de 2025. Por eso, cuando DeepSeek V4 llegó en abril de 2026, la pregunta natural fue: ¿qué tan grande es el salto? La respuesta es contundente — especialmente en eficiencia, manejo del contexto y capacidad de programación.


Comparativa de modelos

Característica DeepSeek-V3.2 DeepSeek-V4-Flash DeepSeek-V4-Pro
Parámetros totales 671B 284B 1,6T
Parámetros activos 37B 13B 49B
Ventana de contexto 128K tokens 1M tokens 1M tokens
Arquitectura MoE + MLA MoE + Hybrid Attention (CSA+HCA) + mHC MoE + Hybrid Attention (CSA+HCA) + mHC
Licencia MIT MIT MIT
Modos de razonamiento Think / Non-think Non-think / Think High / Think Max Non-think / Think High / Think Max

Las diferencias más llamativas son:

  1. Ventana de contexto: V3.2 ofrecía 128K tokens; V4 ofrece 1 millón — un aumento de 8×
  2. V4-Pro es 2,4× más grande que V3.2 en parámetros totales
  3. Arquitectura: V4 introduce el sistema Hybrid Attention (CSA + HCA) y mHC, transformando fundamentalmente la eficiencia en contextos largos
  4. Modos de razonamiento: V3.2 tenía dos modos; V4 introduce tres con un control más preciso del presupuesto de pensamiento

Ganancias de eficiencia: la historia real

Quizás la mejora más impresionante no es la capacidad bruta — es la eficiencia a escala.

En un escenario de contexto de 1 millón de tokens, V4-Pro requiere:

  • Solo el 27 % de los FLOPs de inferencia que necesitaría V3.2 en longitudes de contexto equivalentes
  • Solo el 10 % de la memoria KV cache que requeriría V3.2

Esta es la innovación central de la Hybrid Attention Architecture (CSA + HCA) de DeepSeek V4. No se trata solo de que V4 pueda manejar 1 millón de tokens — es que lo hace de forma dramáticamente más eficiente de lo que V3.2 podría con incluso 128K tokens.


Comparación de benchmarks del modelo base

Benchmark V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (5-shot) 87,8 % 88,7 % 90,1 %
MMLU-Redux (5-shot) 87,5 % 89,4 % 90,8 %
MMLU-Pro (5-shot) 65,5 % 68,3 % 73,5 %
HumanEval (Pass@1) 62,8 % 69,5 % 76,8 %
GSM8K (8-shot) 91,1 % 90,8 % 92,6 %
MATH (4-shot) 60,5 % 57,4 % 64,5 %
Simple-QA verified 28,3 % 30,1 % 55,2 %
LongBench-V2 40,2 % 44,7 % 51,5 %
AGIEval 80,1 % 82,6 % 83,1 %

Conclusiones clave:

  • V4-Pro-Base supera a V3.2-Base en prácticamente todos los benchmarks
  • Las mejoras más dramáticas se dan en conocimiento del mundo (SimpleQA: 28,3 % → 55,2 %) y contexto largo (LongBench-V2: 40,2 % → 51,5 %)
  • V4-Flash-Base, pese a ser más pequeño que V3.2, rinde de forma comparable o mejor en la mayoría de las tareas — una mejora de eficiencia notable

Programación: un salto enorme

La mejora en programación de V3.2 a V4-Pro es especialmente llamativa, sobre todo en el modo Think Max:

Benchmark V3.2 (estimado) V4-Pro Max
LiveCodeBench ~75–80 % 93,5 %
HumanEval (Base) 62,8 % 76,8 %
SWE-bench Verified ~75 % 80,6 %
Codeforces Rating ~2500–2700 3206

El salto en la puntuación de Codeforces de V3.2 a V4-Pro-Max representa un cambio cualitativo — V4-Pro ya se sitúa entre la élite de la programación competitiva, un nivel que V3.2 no podía alcanzar.


Ventana de contexto: de 128K a 1 millón de tokens

Esto merece un énfasis especial. La ventana de contexto de 128K tokens de DeepSeek V3.2 ya era generosa — pero implicaba que las grandes bases de código, los documentos legales extensos o los contextos de investigación de varios libros necesitaban estrategias de fragmentación y resumen.

El contexto de 1 millón de tokens de V4 elimina completamente esas soluciones alternativas. Todo el flujo de trabajo cambia:

Flujo de trabajo de V3.2 para documentos extensos:

  1. Dividir el documento en fragmentos de 120K tokens
  2. Resumir cada fragmento
  3. Combinar los resúmenes y razonar sobre ellos
  4. Perder precisión y coherencia de contexto

Flujo de trabajo de V4:

  1. Cargar el documento completo en un solo contexto
  2. Hacer la pregunta directamente
  3. Obtener una respuesta coherente y completa

Nuevas innovaciones en el entrenamiento

V4 introduce mejoras significativas en el entrenamiento respecto a V3.2:

Innovación V3.2 V4
Optimizador Variante AdamW Muon
Conexiones residuales Estándar mHC (Manifold-Constrained Hyper-Connections)
Tokens de entrenamiento ~18T 32T+
Pipeline post-entrenamiento SFT + RL Dos etapas: especialización de expertos → destilación on-policy
Mecanismo de atención MLA (Multi-head Latent Attention) Hybrid Attention (CSA + HCA)

Estos cambios se potencian mutuamente: más datos, un mejor optimizador, conexiones residuales más sólidas y un mecanismo de atención revolucionario se combinan para producir las mejoras en los benchmarks.


¿Cuándo podría seguir usando V3.2?

A pesar de las mejoras de V4, hay escenarios en los que V3.2 podría seguir siendo preferible:

  • Fine-tuning existente: si ya ha ajustado V3.2 para una tarea específica, reentrenar sobre V4 supone un trabajo considerable
  • Hardware más limitado: V3.2 con 671B totales / 37B activos sigue funcionando bien en sistemas que quizá no puedan gestionar V4-Flash (284B totales)
  • Estabilidad: V4 es una versión preview; V3.2 es un modelo estable y probado en producción

Conclusión

El salto de DeepSeek V3.2 a V4 es uno de los mayores avances de capacidad en una sola generación de modelo en la historia reciente de la IA. La expansión 8× de la ventana de contexto, los cambios arquitectónicos fundamentales y las mejoras en los benchmarks en todas las categorías hacen de V4 una actualización clara para la mayoría de los casos de uso.

Para los desarrolladores y equipos que usan V3.2 hoy — ya sea directamente o a través de plataformas como Framia.pro — migrar a V4-Flash o V4-Pro es un cambio de API sencillo que ofrece un rendimiento dramáticamente mejorado a un coste comparable o menor.