Entrenamiento de DeepSeek V4: cómo se construyó el modelo

Cómo se entrenó DeepSeek V4: más de 32 billones de tokens, optimizador Muon, mHC, Hybrid Attention y pipeline de post-entrenamiento en dos etapas sobre Huawei Ascend 950PR.

by Framia

Entrenamiento de DeepSeek V4: cómo se construyó el modelo

Entender cómo se entrenó DeepSeek V4 permite comprender por qué rinde como lo hace — y qué decisiones arquitectónicas y de datos dieron lugar a un modelo que supera las expectativas en tareas de programación, razonamiento y procesamiento de contextos largos. Esta guía cubre el preentrenamiento, el post-entrenamiento y las innovaciones clave que distinguen a V4 de sus predecesores.


Preentrenamiento: escala y datos

Tamaño del conjunto de datos: más de 32 billones de tokens

Tanto V4-Pro como V4-Flash fueron preentrenados con más de 32 billones de tokens de datos variados y de alta calidad. Esto es casi el doble de los aproximadamente 18 billones de tokens estimados para el preentrenamiento de DeepSeek-V3, lo que representa una inversión sustancial en cómputo de entrenamiento y curación de datos.

El corpus de entrenamiento abarca:

  • Lenguaje natural — textos web, libros y artículos en decenas de idiomas
  • Código — código fuente en todos los principales lenguajes de programación
  • Matemáticas — demostraciones formales, problemas de competición, libros de texto
  • Literatura científica — artículos de investigación de diversas disciplinas STEM
  • Contenido multilingüe — amplia cobertura multilingüe evidenciada por un 90,3 % en MMMLU

Por qué importa tener más datos

La relación entre la escala de datos de entrenamiento y la capacidad del modelo no es lineal — pero en escalas de frontera, más datos de alta calidad y variados mejoran de forma consistente la amplitud del conocimiento, la precisión factual y la capacidad de generalización.

El espectacular salto de V4-Pro-Base en SimpleQA-Verified (55,2 % frente al 28,3 % de V3.2) refleja el aumento en la escala de datos combinado con una mejor curación: el modelo ha absorbido sencillamente mucho más conocimiento del mundo.


El optimizador Muon

DeepSeek sustituyó el optimizador AdamW estándar por el optimizador Muon en V4.

Qué hace Muon

Los optimizadores estándar basados en Adam actualizan los parámetros en función de la dirección y la magnitud del gradiente. Muon añade un paso de ortogonalización: antes de aplicar la actualización del gradiente, elimina las correlaciones entre la actualización actual y las direcciones de actualización anteriores.

El resultado:

  • Convergencia más rápida: Se extrae más información útil de cada paso de entrenamiento
  • Mayor estabilidad: Las actualizaciones ortogonalizadas tienen menos probabilidad de causar oscilaciones o divergencias
  • Mejor escalabilidad: Las propiedades de estabilidad de Muon son especialmente valiosas a la escala de V4 (1,6 billones de parámetros)

Se puede entender como una exploración más eficiente del espacio de parámetros: Muon evita pasos redundantes al garantizar que cada actualización del gradiente avance en una dirección genuinamente nueva.


Innovaciones arquitectónicas durante el preentrenamiento

Arquitectura de atención híbrida (CSA + HCA)

A diferencia de V3.2, que utilizaba Multi-head Latent Attention (MLA), V4 se preentrena desde cero con la arquitectura de atención híbrida. Esto significa que las representaciones internas del modelo están moldeadas por el mecanismo CSA + HCA desde el principio — no añadido a posteriori sobre una arquitectura más antigua.

Por eso V4 maneja contextos de 1 millón de tokens de forma más natural: los patrones de atención aprendidos durante el preentrenamiento están optimizados para la estructura de compresión jerárquica.

Conexiones hiper-residuales con restricción de variedad (mHC)

mHC reemplaza las conexiones residuales estándar en toda la red. Preentrenar con mHC desde el principio significa que las matrices de pesos del modelo se desarrollan dentro de un espacio estructuralmente restringido que favorece una propagación de señal estable.

El efecto práctico: entrenar un modelo de 1,6 billones de parámetros con 32 billones+ de tokens es viable sin las inestabilidades catastróficas que afectan a los intentos de escalar arquitecturas estándar a este tamaño.


Post-entrenamiento: el pipeline de dos etapas

Etapa 1: Cultivo independiente de expertos

Los expertos individuales de la arquitectura MoE se entrenan de forma independiente para la especialización por dominio:

Supervised Fine-Tuning (SFT):

  • Ejemplos etiquetados de alta calidad en el dominio de cada experto
  • Enseña al modelo a seguir instrucciones con precisión en cada especialidad
  • Cubre programación, matemáticas, ciencias, lenguaje, conocimiento general y seguridad

Aprendizaje por refuerzo con GRPO:

  • Group Relative Policy Optimization recompensa al modelo por generar mejores respuestas en relación con un grupo de muestras
  • Se aplica de forma independiente a cada dominio/experto
  • Orienta el comportamiento del experto hacia las preferencias humanas sin necesitar un modelo de recompensa separado

Etapa 2: Consolidación del modelo unificado

Tras la etapa 1, los expertos entrenados de forma independiente se integran en un modelo unificado mediante destilación on-policy:

  1. El modelo especializado de la etapa 1 genera salidas en tareas diversas
  2. El modelo final se entrena para reproducir (destilar) esas salidas
  3. El mecanismo de enrutamiento aprende a activar los expertos correctos para cada tarea

Esta fase de consolidación es lo que otorga a V4-Pro su inusual combinación de capacidades profundas en dominios muy diferentes — cada experto está genuinamente especializado y el enrutador ha aprendido a utilizarlos de manera adecuada.


Hardware: Huawei Ascend 950PR

Uno de los hechos más significativos sobre el entrenamiento de V4 es el hardware empleado:

V4 fue entrenado en chips Huawei Ascend 950PR — no en las A100 o H100 de NVIDIA.

Esto tiene varias implicaciones:

Técnico: El Huawei Ascend 950PR es un acelerador de IA de alto rendimiento con un rendimiento de entrenamiento competitivo para modelos a gran escala. Los resultados de V4 demuestran que el entrenamiento de IA de frontera es alcanzable con este hardware.

Geopolítico: Las restricciones de exportación de EE. UU. limitan el acceso de las empresas chinas a los chips más avanzados de NVIDIA. El éxito de DeepSeek entrenando V4 en hardware Ascend demuestra que las capacidades de chips de IA domésticos de China son más elevadas de lo que muchos suponían.

Estratégico: Al construir sobre hardware doméstico, DeepSeek (y por extensión el ecosistema de IA de China) reduce su dependencia de las cadenas de suministro controladas por EE. UU. para el desarrollo de IA de frontera.


Alineación post-entrenamiento

Tras el pipeline RLHF de dos etapas, V4 pasa por un ajuste de alineación centrado en la seguridad:

  • Ejemplos SFT adicionales que cubren escenarios relevantes para la seguridad
  • Directrices de estilo constitucional integradas en el seguimiento de instrucciones
  • Alineación de seguridad multilingüe en todos los idiomas compatibles con V4

El alcance exacto del post-entrenamiento de seguridad de DeepSeek no está completamente documentado en el informe técnico público, pero la práctica estándar del sector y el historial de DeepSeek con modelos anteriores sugieren una cobertura exhaustiva de los casos de uso dañinos más habituales.


Coste de entrenamiento: la historia de la eficiencia

DeepSeek ya fue alabado anteriormente por conseguir resultados de frontera con costes de entrenamiento declarados significativamente más bajos que los de sus competidores occidentales. El coste de entrenamiento de V4 no ha sido divulgado oficialmente, pero varios factores apuntan a que las ventajas de eficiencia se mantienen:

  1. Optimizador Muon: Menos pasos de gradiente desperdiciados
  2. Estabilidad de mHC: Menos cómputo perdido por inestabilidades de entrenamiento
  3. Dispersión MoE: Solo 49.000 millones de parámetros activos por token, no 1,6 billones
  4. Optimización del Ascend 950PR: Diseñado específicamente para este tipo de entrenamiento

La combinación de mejoras arquitectónicas y de optimizador significa que V4 extrae más capacidad por FLOP de entrenamiento que los enfoques anteriores.


De V3.2 a V4: qué cambió en el entrenamiento

Aspecto del entrenamiento V3.2 V4
Optimizador Variante de AdamW Muon
Conexiones residuales Estándar mHC
Mecanismo de atención MLA Híbrido (CSA + HCA)
Tokens de preentrenamiento ~18 billones 32 billones+
Pipeline de post-entrenamiento SFT + RL Dos etapas: especialización + consolidación
Hardware NVIDIA (equivalente H800) Huawei Ascend 950PR

Implicaciones para el campo

La metodología de entrenamiento de V4 — en particular el optimizador Muon, mHC y el post-entrenamiento de dos etapas — está documentada abiertamente en el informe técnico y está disponible para que la comunidad investigadora la estudie y replique. La transparencia de DeepSeek refleja su cultura orientada a la investigación.

Plataformas como Framia.pro que integran capacidades de IA de frontera se benefician de esta cultura de compartir conocimiento: a medida que estas técnicas de entrenamiento se replican y perfeccionan en todo el ecosistema, el techo de calidad de los modelos de IA sigue subiendo, mejorando todas las aplicaciones posteriores.


Conclusión

DeepSeek V4 se construyó mediante una combinación de escala de datos sin precedentes (32 billones+ de tokens), innovación arquitectónica (Hybrid Attention, mHC), mejoras en el optimizador (Muon) y un novedoso pipeline de post-entrenamiento en dos etapas. El resultado es un modelo que alcanza un rendimiento de clase frontera sobre una infraestructura de hardware doméstico chino — un logro histórico que establece a V4 como un hito tanto técnico como estratégico en el desarrollo de la IA.