DeepSeek V4: 1,6 billones de parámetros totales y 49B activos explicados

DeepSeek V4-Pro tiene 1,6 billones de parámetros en total, pero solo activa 49B por token. Descubre qué significan estas cifras y por qué la arquitectura MoE lo hace tan eficiente.

Parámetros de DeepSeek V4 explicados: 1,6 billones en total, 49B activos

Cuando DeepSeek anunció que V4-Pro tiene 1,6 billones de parámetros, muchos se quedaron sin palabras. Es más grande que la mayoría de los modelos open-weight existentes. Pero aquí está el matiz clave: de esos 1,6 billones de parámetros, solo 49.000 millones se activan para cada token durante la inferencia.

Esa distinción es el núcleo de lo que hace a DeepSeek V4 poderoso y, a la vez, práctico para su despliegue real.

Recuento de parámetros de DeepSeek V4 de un vistazo

Modelo	Parámetros totales	Parámetros activos	Tamaño de descarga
DeepSeek-V4-Pro	1,6 billones	49.000 millones	~865 GB
DeepSeek-V4-Flash	284.000 millones	13.000 millones	~160 GB
DeepSeek-V3.2 (predecesor)	671.000 millones	37.000 millones	~380 GB

Como comparación, V4-Pro más que dobla el tamaño total de V3.2, mientras que V4-Flash representa aproximadamente el 42% del tamaño de V3.2, lo que convierte a Flash en una opción ligera extraordinariamente capaz.

¿Qué significa realmente "1,6 billones de parámetros"?

Los parámetros son los pesos numéricos aprendidos almacenados dentro de una red neuronal. Durante el entrenamiento, estos pesos se ajustan para minimizar el error de predicción sobre un enorme conjunto de datos (en el caso de DeepSeek V4, más de 32 billones de tokens). En el momento de la inferencia, estos pesos determinan cómo responde el modelo a cualquier entrada.

Más parámetros generalmente permiten a un modelo:

Almacenar más conocimiento factual
Capturar patrones lingüísticos más sutiles
Generalizar mejor ante tareas raras o complejas

Con 1,6 billones de parámetros, V4-Pro es uno de los modelos open-weight más grandes jamás publicados, lo que le otorga una excepcional amplitud de conocimiento y profundidad de razonamiento.

La arquitectura Mixture of Experts (MoE): por qué solo se activan 49B

Aquí es donde se pone interesante. DeepSeek V4 es un modelo Mixture of Experts (MoE), no un transformer denso donde cada parámetro se activa para cada token.

En un modelo MoE:

La red contiene muchas sub-redes "expertas" especializadas
Para cada token, un enrutador selecciona solo un pequeño subconjunto de expertos para activar
Solo esos expertos contribuyen a la salida

Para DeepSeek-V4-Pro, el enrutador activa 49.000 millones de parámetros por token de los 1,6 billones totales — aproximadamente el 3% de la red. Esto le proporciona el conocimiento de un modelo de 1,6 billones al coste de un presupuesto de cómputo de 49.000 millones.

Por eso los modelos MoE pueden ser extraordinariamente capaces sin requerir proporcionalmente más cómputo que modelos densos mucho más pequeños.

Precisión: FP4 + FP8 mixto

Los pesos de DeepSeek V4 no se almacenan con plena precisión de 32 bits. En cambio:

Los parámetros de los expertos MoE utilizan precisión FP4 (punto flotante de 4 bits)
La mayoría del resto de parámetros utilizan precisión FP8 (punto flotante de 8 bits)

Este enfoque de precisión mixta reduce drásticamente la huella de memoria sin afectar significativamente la calidad del modelo, haciendo viable su ejecución en hardware accesible (más detalles en la guía de despliegue local).

Los modelos Base (V4-Pro-Base y V4-Flash-Base) usan precisión FP8 Mixed en todos sus parámetros.

Cómo se comparan los parámetros de V4-Pro con los de la competencia

Modelo	Parámetros (total)	Parámetros (activos)	¿Open Weight?
DeepSeek-V4-Pro	1,6 billones	49.000 M	✅ Sí (MIT)
DeepSeek-V3.2	671.000 M	37.000 M	✅ Sí
GPT-5.5	No revelado	No revelado	❌ No
Claude Opus 4.7	No revelado	No revelado	❌ No
Gemini-3.1-Pro	No revelado	No revelado	❌ No

La ventaja clave: DeepSeek V4-Pro es el mayor modelo open-weight disponible hoy en día y, a diferencia de los competidores cerrados, puedes inspeccionarlo, ajustarlo y desplegarlo tú mismo.

Qué significan los 284.000 millones de parámetros de DeepSeek V4-Flash

V4-Flash con 284.000 millones en total / 13.000 millones activos no es ninguna opción menor. Con 13.000 millones de parámetros activos por token, su coste computacional es comparable al de un modelo denso de tamaño medio como Llama 3.3 70B, pero trae el conocimiento y las mejoras arquitectónicas de un sistema con 284.000 millones de parámetros en total.

En la práctica:

Flash alcanza un rendimiento cercano al de Pro en tareas simples y de complejidad media
Con un mayor "presupuesto de razonamiento" (modo Think Max), Flash logra puntuaciones comparables a los modelos frontier anteriores
Flash funciona con mucha menos memoria GPU y cuesta aproximadamente 10 veces menos a través de la API

Para desarrolladores que crean aplicaciones de alto volumen en plataformas como Framia.pro, la eficiencia de parámetros de Flash lo convierte en la opción ideal para cargas de trabajo de IA creativa rentables y de alto rendimiento.

Por qué el número de parámetros importa para tu caso de uso

Aquí está la conclusión práctica:

Elige V4-Pro cuando necesites máxima profundidad de conocimiento, codificación de primer nivel mundial, razonamiento complejo sobre documentos largos o comparaciones contra modelos frontier
Elige V4-Flash cuando necesites velocidad, eficiencia de coste o estés ejecutando llamadas a la API de alto volumen donde el presupuesto importa

Ambos modelos se benefician de las mismas innovaciones arquitectónicas — el mecanismo de atención híbrida (CSA + HCA), mHC y el optimizador Muon — la única diferencia significativa es la escala de parámetros y el techo de rendimiento resultante.

Conclusión

Los 1,6 billones de parámetros totales de DeepSeek V4-Pro lo convierten en el LLM open-weight más capaz disponible hoy — pero la verdadera magia está en la arquitectura MoE que mantiene los costes de inferencia bajo control. Solo 49.000 millones de parámetros se activan por token, lo que significa que obtienes conocimiento a escala de billones a una fracción del coste computacional.

Comprender esta distinción es esencial para cualquiera que despliegue DeepSeek V4 en producción, ya sea ejecutando el modelo localmente o accediendo a él a través de la API.