Arquitectura del modelo DeepSeek V4: atención híbrida, mHC y MoE explicados

DeepSeek V4 combina atención híbrida (CSA + HCA), hiper-conexiones con restricción de variedad (mHC) y el optimizador Muon. Te explicamos qué aporta cada innovación.

by Framia

Arquitectura del modelo DeepSeek V4: atención híbrida, mHC y MoE explicados

DeepSeek V4 no es simplemente una versión más grande de V3. Introduce un conjunto de cambios arquitectónicos fundamentales que mejoran drásticamente la eficiencia, especialmente para cargas de trabajo con contextos largos. Si quieres entender por qué DeepSeek V4 puede manejar 1 millón de tokens de forma predeterminada — y hacerlo con mucho menos cómputo que cualquier modelo anterior — esta guía te lleva a través de cada innovación principal.


Visión general: cuatro pilares arquitectónicos fundamentales

  1. Mixture of Experts (MoE) — activación dispersa para eficiencia computacional
  2. Arquitectura de atención híbrida (CSA + HCA) — la clave para la eficiencia con 1 millón de tokens
  3. Hiper-conexiones con restricción de variedad (mHC) — propagación estable de señales
  4. Optimizador Muon — entrenamiento más rápido y estable

Analicemos cada uno en detalle.


1. Mixture of Experts (MoE)

DeepSeek V4 utiliza una arquitectura MoE tanto en la variante Pro (1,6T / 49B activos) como en Flash (284B / 13B activos). El MoE funciona dividiendo las capas feed-forward del modelo en muchos "expertos" especializados, con un router entrenable que selecciona los expertos más relevantes para cada token.

Por qué importa: Obtienes la capacidad de conocimiento de un modelo con cientos de miles de millones o billones de parámetros, pero solo activas un pequeño subconjunto de ellos por token. El coste de inferencia escala con los parámetros activos, no con los totales — lo que hace que MoE sea mucho más eficiente computacionalmente que los modelos densos equivalentes.

El pipeline de post-entrenamiento de DeepSeek incorpora un enfoque distintivo de dos etapas:

  • Etapa 1: Especialización independiente de expertos mediante SFT y RL con GRPO
  • Etapa 2: Consolidación del modelo unificado mediante destilación on-policy — fusionando toda la experiencia especializada en un único modelo coherente

2. Arquitectura de atención híbrida: CSA + HCA

Esta es la innovación más significativa de DeepSeek V4, y la razón por la que 1 millón de tokens es ahora la longitud de contexto predeterminada.

El problema de la atención estándar en contextos largos

La atención transformer estándar escala cuadráticamente con la longitud de la secuencia. Para 1 millón de tokens, esto requeriría una cantidad astronómica de memoria (caché KV) y cómputo, lo que lo hace impracticable.

La solución de DeepSeek: dos mecanismos de atención complementarios

Compressed Sparse Attention (CSA)

  • Aplica compresión por token, reduciendo el número de pares clave-valor que deben almacenarse y recuperarse
  • Permite al modelo acceder eficientemente a contextos distantes sin almacenar toda la secuencia a plena resolución

Heavily Compressed Attention (HCA)

  • Va más allá, aplicando compresión agresiva a los tokens muy alejados de la posición actual
  • Básicamente le dice al modelo: "para tokens lejanos en el historial, almacena un resumen muy comprimido — no intentes recordar cada detalle"

Juntos, CSA y HCA crean un sistema de memoria por niveles: los tokens recientes reciben atención completa, los algo más distantes reciben atención comprimida, y los muy distantes reciben atención altamente comprimida. Esto refleja cómo funciona realmente la memoria de trabajo humana.

El resultado: ganancias de eficiencia espectaculares

En un escenario de contexto de 1 millón de tokens:

  • V4-Pro requiere solo el 27% de las FLOPs de inferencia por token respecto a V3.2
  • V4-Pro requiere solo el 10% de la memoria de caché KV respecto a V3.2

Eso supone aproximadamente una reducción de 3,7x en cómputo y 10x en memoria — permitiendo un contexto de 1 millón de tokens en hardware que habría sido imposible para V3.2.


3. Hiper-conexiones con restricción de variedad (mHC)

A medida que los modelos escalan a billones de parámetros a lo largo de cientos de capas, un modo de fallo común es la degradación del gradiente — las señales se vuelven demasiado débiles o ruidosas para propagarse eficazmente a través de redes profundas.

La solución de DeepSeek es mHC (Manifold-Constrained Hyper-Connections), que mejora las conexiones residuales convencionales restringiendo las actualizaciones de pesos a una variedad riemanniana. En términos sencillos, mHC:

  • Refuerza la vía residual entre capas transformer
  • Estabiliza el flujo de señales a través de la profundidad de la red
  • Preserva la expresividad del modelo mientras evita la explosión o desvanecimiento del gradiente

El efecto práctico: el V4-Pro con 1,6T de parámetros puede entrenarse de manera fiable a una escala que desestabilizaría la mayoría de otras arquitecturas.


4. Optimizador Muon

DeepSeek V4 reemplaza el optimizador estándar AdamW con el Optimizador Muon (abreviatura de Momentum + Orthogonalization). Muon:

  • Aplica un paso de ortogonalización a las actualizaciones de gradiente, evitando actualizaciones redundantes en direcciones correlacionadas
  • Logra una convergencia más rápida — el modelo aprende más de cada paso de entrenamiento
  • Proporciona mayor estabilidad en el entrenamiento — especialmente importante a la escala de pre-entrenamiento de más de 32T tokens

Tanto V4-Pro como V4-Flash fueron pre-entrenados con más de 32 billones de tokens diversos y de alta calidad usando Muon, lo que da a los modelos una cobertura excepcional de conocimiento del mundo, código, matemáticas y texto multilingüe.


Tres modos de esfuerzo de razonamiento: arquitectura e inferencia

La arquitectura permite un sistema de inferencia flexible de tres modos:

Modo Comportamiento Caso de uso
Non-think Sin cadena de pensamiento explícita Consultas rápidas, tareas sencillas
Think High Cadena de pensamiento controlada Razonamiento complejo, planificación
Think Max Razonamiento extendido y exhaustivo Matemáticas de competición, programación avanzada

Think Max requiere al menos una ventana de contexto de 384K tokens para funcionar bien. Esto está fácilmente disponible dentro del límite de 1 millón de tokens de V4.


Comparación con la arquitectura de DeepSeek V3.2

DeepSeek-V3.2 usaba 671B total / 37B parámetros activos y un esquema de atención diferente. Al pasar a V4:

  • Los parámetros totales casi se triplicaron (671B → 1,6T para Pro)
  • Los parámetros activos crecieron de 37B → 49B
  • La caché KV se redujo 10x para contexto de 1 millón de tokens
  • El cómputo por token se redujo en ~73%
  • Nuevo optimizador (Muon vs. variante AdamW)
  • Nuevo pipeline de entrenamiento (consolidación de expertos en dos etapas)

Para plataformas como Framia.pro que impulsan agentes de IA a escala, mejoras de eficiencia arquitectónica como estas se traducen directamente en menores costes, respuestas más rápidas y flujos de trabajo creativos más potentes.


Conclusión

La arquitectura de DeepSeek V4 es una combinación cuidadosamente diseñada de dispersión MoE, compresión de atención híbrida, conexiones residuales con restricción de variedad y un optimizador avanzado. Juntas, estas innovaciones hacen que el contexto de 1 millón de tokens no sea solo teóricamente posible, sino prácticamente el valor predeterminado — a un coste que lo hace accesible para desarrolladores, investigadores y empresas de todo el mundo.