Paper DeepSeek V4: Hallazgos técnicos clave explicados (2026)

Resumen del informe técnico de DeepSeek V4: Atención híbrida (CSA+HCA), mHC, optimizador Muon, post-entrenamiento en dos etapas y los resultados de benchmarks más importantes.

Paper de DeepSeek V4: Principales hallazgos técnicos del informe oficial

DeepSeek publicó el informe técnico completo de DeepSeek V4 junto con los pesos del modelo el 24 de abril de 2026. Bajo el título "DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence", es un documento académico exhaustivo que cubre la arquitectura del modelo, la metodología de entrenamiento y los resultados de evaluación.

Este artículo resume los hallazgos técnicos más importantes para investigadores, ingenieros y profesionales con curiosidad técnica.

Descripción general del paper

Título: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
Autores: DeepSeek-AI
Año: 2026
Disponible en: huggingface.co/deepseek-ai/DeepSeek-V4-Pro (en los archivos del repositorio como DeepSeek_V4.pdf)

El paper presenta la serie V4 — DeepSeek-V4-Pro (1,6T / 49B activos) y DeepSeek-V4-Flash (284B / 13B activos) — y detalla tres innovaciones principales: la Arquitectura Hybrid Attention, mHC (Manifold-Constrained Hyper-Connections) y el optimizador Muon.

Hallazgo 1: El problema del contexto de 1 millón de tokens y su solución

La contribución central del paper es resolver el reto de hacer que un contexto de un millón de tokens sea prácticamente viable, no solo teóricamente posible.

El problema: Los mecanismos de atención estándar escalan de forma cuadrática con la longitud de la secuencia. Con 1 millón de tokens, la atención estándar requeriría:

Órdenes de magnitud más cómputo por token
Una memoria de caché KV de tamaño inviable

La solución — Arquitectura Hybrid Attention: El paper propone combinar dos mecanismos de atención complementarios:

Compressed Sparse Attention (CSA):

Aplica compresión clave-valor a nivel de token
Mantiene alta fidelidad para tokens recientes y relevantes
Reduce la sobrecarga de atención para contextos de distancia moderada

Heavily Compressed Attention (HCA):

Aplica compresión agresiva a tokens muy distantes
Genera representaciones compactas del historial lejano
Permite al modelo "recordar" en horizontes muy largos con un coste mínimo

Resultado cuantificado: En el contexto de 1 millón de tokens, V4-Pro requiere únicamente el 27% de los FLOPs de inferencia por token único y el 10% de la caché KV en comparación con DeepSeek-V3.2. Esta es la contribución práctica más relevante del paper.

Hallazgo 2: Manifold-Constrained Hyper-Connections (mHC)

Las conexiones residuales estándar en transformers profundos pueden sufrir degradación del gradiente a medida que aumenta la profundidad de la red. El paper introduce mHC para abordar este problema.

La innovación: mHC restringe las actualizaciones de pesos a una variedad riemanniana — un espacio geométrico suave. Esto:

Fortalece la propagación de señal entre capas
Previene la explosión/desvanecimiento del gradiente en redes muy profundas
Preserva la expresividad del modelo mientras mejora la estabilidad

Efecto práctico: mHC permite un entrenamiento fiable con 1,6 billones de parámetros. Sin esta mejora de estabilidad, escalar a esa cantidad de parámetros con la Arquitectura Hybrid Attention sería considerablemente más difícil.

Hallazgo 3: El optimizador Muon

El paper detalla la adopción del optimizador Muon en sustitución del entrenamiento estándar basado en AdamW.

Muon funciona ortogonalizando las actualizaciones de gradiente — eliminando correlaciones entre las direcciones de actualización:

Los pasos de gradiente son más independientes
La convergencia es más rápida: el modelo aprende más por paso de entrenamiento
El entrenamiento es más estable a escala muy grande

Combinado con un preentrenamiento sobre más de 32T tokens diversos, Muon produce modelos con una cobertura sólida del conocimiento del mundo, código, matemáticas, ciencia y texto multilingüe.

Hallazgo 4: Pipeline de post-entrenamiento en dos etapas

Una de las contribuciones más novedosas del paper es la metodología de post-entrenamiento:

Etapa 1: Cultivo independiente de expertos

Cada experto MoE se entrena de forma independiente en su dominio de especialización
Usa SFT (Supervised Fine-Tuning) + RL con GRPO (Group Relative Policy Optimization)
Cada experto desarrolla una competencia profunda y especializada

Etapa 2: Consolidación del modelo unificado

La destilación on-policy integra las competencias de los distintos expertos en un único modelo
El modelo final tiene acceso a toda la experiencia de dominio sin necesidad de alternar entre modelos separados

Este pipeline explica por qué V4-Pro muestra un rendimiento inusualmente alto en tipos de tareas muy diferentes de forma simultánea — conocimiento profundo del mundo Y codificación de vanguardia Y recuperación de contexto largo.

Hallazgo 5: Detalles de la arquitectura MoE

El paper describe en detalle la implementación MoE:

Configuración de expertos de V4-Pro:

1,6T de parámetros totales distribuidos entre todos los expertos
49B activados por token
El enrutador selecciona los expertos relevantes por token mediante pesos de enrutamiento aprendidos
Los parámetros de los expertos se almacenan en precisión FP4 (la mayoría de los demás pesos en FP8)

V4-Flash:

284B total / 13B activos
Mismas innovaciones arquitectónicas pero a menor escala
Usa el mismo esquema de precisión mixta FP4 + FP8

El paper señala que V4-Flash, a pesar de ser más pequeño que V3.2 (671B / 37B), logra un rendimiento comparable o superior en la mayoría de los benchmarks, demostrando las ganancias de eficiencia de la nueva arquitectura.

Hallazgo 6: Evaluación del modelo base

El paper proporciona extensos resultados de benchmarks del modelo base (antes del ajuste por instrucciones), estableciendo que las capacidades de V4-Pro emergen con fuerza desde el preentrenamiento:

Principales resultados del modelo base (V4-Pro-Base vs V3.2-Base):

MMLU: 90,1% vs 87,8% (+2,3pp)
MMLU-Redux: 90,8% vs 87,5% (+3,3pp)
Simple-QA verificado: 55,2% vs 28,3% (+26,9pp — salto masivo)
HumanEval: 76,8% vs 62,8% (+14pp)
LongBench-V2: 51,5% vs 40,2% (+11,3pp)

El salto en Simple-QA verificado (+26,9pp) es especialmente llamativo — indica mejoras fundamentales en el anclaje del conocimiento del mundo a nivel del modelo base.

Hallazgo 7: Sistema de inferencia de tres modos

El paper introduce el marco de razonamiento de tres modos como característica arquitectónica de primer nivel:

Non-think: El modelo genera respuestas directas sin una cadena de pensamiento explícita
Think High: Un proceso de pensamiento controlado con asignación de tokens presupuestada
Think Max: Razonamiento extendido con un prompt de sistema especial, que requiere más de 384K tokens de margen de contexto

El paper demuestra que Think Max cierra significativamente la brecha con los modelos propietarios de última generación en benchmarks de razonamiento exigentes — lo que sugiere que la profundidad del razonamiento, no solo el número de parámetros, es un factor determinante clave del rendimiento en tareas complejas.

Hallazgo 8: Rendimiento agéntico

El paper enfatiza el enfoque de DeepSeek en las capacidades agénticas, reportando resultados sólidos en:

SWE-bench Verified: 80,6% (iguala a Gemini-3.1-Pro, casi alcanza a Claude Opus 4.6)
Terminal Bench 2.0: 67,9% (competitivo con los mejores modelos abiertos)
MCPAtlas: 73,6% (cerca del SOTA)

El paper también menciona la integración con Claude Code, OpenClaw y OpenCode como entornos de despliegue oficialmente compatibles.

Cita bibliográfica

Para uso académico:

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}

Conclusión

El informe técnico de DeepSeek V4 es un documento académico denso y de alta calidad que genuinamente hace avanzar el campo. Sus contribuciones fundamentales — Hybrid Attention (CSA + HCA), mHC y el pipeline de post-entrenamiento en dos etapas — son innovaciones concretas y reproducibles que la comunidad investigadora de IA puede estudiar y sobre las que puede construir. Plataformas como Framia.pro que aprovechan modelos de IA de vanguardia se benefician directamente de los avances arquitectónicos documentados en papers como este, que impulsan tanto mejoras en capacidades como reducciones de costes en todo el ecosistema.