DeepSeek V4 vs DeepSeek V3: ¿Cuánto ha mejorado?
DeepSeek V3 — en concreto, V3.2 — fue ampliamente reconocido como uno de los mejores modelos de código abierto de 2025. Por eso, cuando DeepSeek V4 llegó en abril de 2026, la pregunta natural fue: ¿qué tan grande es el salto? La respuesta es contundente — especialmente en eficiencia, manejo del contexto y capacidad de programación.
Comparativa de modelos
| Característica | DeepSeek-V3.2 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|---|
| Parámetros totales | 671B | 284B | 1,6T |
| Parámetros activos | 37B | 13B | 49B |
| Ventana de contexto | 128K tokens | 1M tokens | 1M tokens |
| Arquitectura | MoE + MLA | MoE + Hybrid Attention (CSA+HCA) + mHC | MoE + Hybrid Attention (CSA+HCA) + mHC |
| Licencia | MIT | MIT | MIT |
| Modos de razonamiento | Think / Non-think | Non-think / Think High / Think Max | Non-think / Think High / Think Max |
Las diferencias más llamativas son:
- Ventana de contexto: V3.2 ofrecía 128K tokens; V4 ofrece 1 millón — un aumento de 8×
- V4-Pro es 2,4× más grande que V3.2 en parámetros totales
- Arquitectura: V4 introduce el sistema Hybrid Attention (CSA + HCA) y mHC, transformando fundamentalmente la eficiencia en contextos largos
- Modos de razonamiento: V3.2 tenía dos modos; V4 introduce tres con un control más preciso del presupuesto de pensamiento
Ganancias de eficiencia: la historia real
Quizás la mejora más impresionante no es la capacidad bruta — es la eficiencia a escala.
En un escenario de contexto de 1 millón de tokens, V4-Pro requiere:
- Solo el 27 % de los FLOPs de inferencia que necesitaría V3.2 en longitudes de contexto equivalentes
- Solo el 10 % de la memoria KV cache que requeriría V3.2
Esta es la innovación central de la Hybrid Attention Architecture (CSA + HCA) de DeepSeek V4. No se trata solo de que V4 pueda manejar 1 millón de tokens — es que lo hace de forma dramáticamente más eficiente de lo que V3.2 podría con incluso 128K tokens.
Comparación de benchmarks del modelo base
| Benchmark | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (5-shot) | 87,8 % | 88,7 % | 90,1 % |
| MMLU-Redux (5-shot) | 87,5 % | 89,4 % | 90,8 % |
| MMLU-Pro (5-shot) | 65,5 % | 68,3 % | 73,5 % |
| HumanEval (Pass@1) | 62,8 % | 69,5 % | 76,8 % |
| GSM8K (8-shot) | 91,1 % | 90,8 % | 92,6 % |
| MATH (4-shot) | 60,5 % | 57,4 % | 64,5 % |
| Simple-QA verified | 28,3 % | 30,1 % | 55,2 % |
| LongBench-V2 | 40,2 % | 44,7 % | 51,5 % |
| AGIEval | 80,1 % | 82,6 % | 83,1 % |
Conclusiones clave:
- V4-Pro-Base supera a V3.2-Base en prácticamente todos los benchmarks
- Las mejoras más dramáticas se dan en conocimiento del mundo (SimpleQA: 28,3 % → 55,2 %) y contexto largo (LongBench-V2: 40,2 % → 51,5 %)
- V4-Flash-Base, pese a ser más pequeño que V3.2, rinde de forma comparable o mejor en la mayoría de las tareas — una mejora de eficiencia notable
Programación: un salto enorme
La mejora en programación de V3.2 a V4-Pro es especialmente llamativa, sobre todo en el modo Think Max:
| Benchmark | V3.2 (estimado) | V4-Pro Max |
|---|---|---|
| LiveCodeBench | ~75–80 % | 93,5 % |
| HumanEval (Base) | 62,8 % | 76,8 % |
| SWE-bench Verified | ~75 % | 80,6 % |
| Codeforces Rating | ~2500–2700 | 3206 |
El salto en la puntuación de Codeforces de V3.2 a V4-Pro-Max representa un cambio cualitativo — V4-Pro ya se sitúa entre la élite de la programación competitiva, un nivel que V3.2 no podía alcanzar.
Ventana de contexto: de 128K a 1 millón de tokens
Esto merece un énfasis especial. La ventana de contexto de 128K tokens de DeepSeek V3.2 ya era generosa — pero implicaba que las grandes bases de código, los documentos legales extensos o los contextos de investigación de varios libros necesitaban estrategias de fragmentación y resumen.
El contexto de 1 millón de tokens de V4 elimina completamente esas soluciones alternativas. Todo el flujo de trabajo cambia:
Flujo de trabajo de V3.2 para documentos extensos:
- Dividir el documento en fragmentos de 120K tokens
- Resumir cada fragmento
- Combinar los resúmenes y razonar sobre ellos
- Perder precisión y coherencia de contexto
Flujo de trabajo de V4:
- Cargar el documento completo en un solo contexto
- Hacer la pregunta directamente
- Obtener una respuesta coherente y completa
Nuevas innovaciones en el entrenamiento
V4 introduce mejoras significativas en el entrenamiento respecto a V3.2:
| Innovación | V3.2 | V4 |
|---|---|---|
| Optimizador | Variante AdamW | Muon |
| Conexiones residuales | Estándar | mHC (Manifold-Constrained Hyper-Connections) |
| Tokens de entrenamiento | ~18T | 32T+ |
| Pipeline post-entrenamiento | SFT + RL | Dos etapas: especialización de expertos → destilación on-policy |
| Mecanismo de atención | MLA (Multi-head Latent Attention) | Hybrid Attention (CSA + HCA) |
Estos cambios se potencian mutuamente: más datos, un mejor optimizador, conexiones residuales más sólidas y un mecanismo de atención revolucionario se combinan para producir las mejoras en los benchmarks.
¿Cuándo podría seguir usando V3.2?
A pesar de las mejoras de V4, hay escenarios en los que V3.2 podría seguir siendo preferible:
- Fine-tuning existente: si ya ha ajustado V3.2 para una tarea específica, reentrenar sobre V4 supone un trabajo considerable
- Hardware más limitado: V3.2 con 671B totales / 37B activos sigue funcionando bien en sistemas que quizá no puedan gestionar V4-Flash (284B totales)
- Estabilidad: V4 es una versión preview; V3.2 es un modelo estable y probado en producción
Conclusión
El salto de DeepSeek V3.2 a V4 es uno de los mayores avances de capacidad en una sola generación de modelo en la historia reciente de la IA. La expansión 8× de la ventana de contexto, los cambios arquitectónicos fundamentales y las mejoras en los benchmarks en todas las categorías hacen de V4 una actualización clara para la mayoría de los casos de uso.
Para los desarrolladores y equipos que usan V3.2 hoy — ya sea directamente o a través de plataformas como Framia.pro — migrar a V4-Flash o V4-Pro es un cambio de API sencillo que ofrece un rendimiento dramáticamente mejorado a un coste comparable o menor.