Parámetros de DeepSeek V4 explicados: 1,6 billones en total, 49B activos
Cuando DeepSeek anunció que V4-Pro tiene 1,6 billones de parámetros, muchos se quedaron sin palabras. Es más grande que la mayoría de los modelos open-weight existentes. Pero aquí está el matiz clave: de esos 1,6 billones de parámetros, solo 49.000 millones se activan para cada token durante la inferencia.
Esa distinción es el núcleo de lo que hace a DeepSeek V4 poderoso y, a la vez, práctico para su despliegue real.
Recuento de parámetros de DeepSeek V4 de un vistazo
| Modelo | Parámetros totales | Parámetros activos | Tamaño de descarga |
|---|---|---|---|
| DeepSeek-V4-Pro | 1,6 billones | 49.000 millones | ~865 GB |
| DeepSeek-V4-Flash | 284.000 millones | 13.000 millones | ~160 GB |
| DeepSeek-V3.2 (predecesor) | 671.000 millones | 37.000 millones | ~380 GB |
Como comparación, V4-Pro más que dobla el tamaño total de V3.2, mientras que V4-Flash representa aproximadamente el 42% del tamaño de V3.2, lo que convierte a Flash en una opción ligera extraordinariamente capaz.
¿Qué significa realmente "1,6 billones de parámetros"?
Los parámetros son los pesos numéricos aprendidos almacenados dentro de una red neuronal. Durante el entrenamiento, estos pesos se ajustan para minimizar el error de predicción sobre un enorme conjunto de datos (en el caso de DeepSeek V4, más de 32 billones de tokens). En el momento de la inferencia, estos pesos determinan cómo responde el modelo a cualquier entrada.
Más parámetros generalmente permiten a un modelo:
- Almacenar más conocimiento factual
- Capturar patrones lingüísticos más sutiles
- Generalizar mejor ante tareas raras o complejas
Con 1,6 billones de parámetros, V4-Pro es uno de los modelos open-weight más grandes jamás publicados, lo que le otorga una excepcional amplitud de conocimiento y profundidad de razonamiento.
La arquitectura Mixture of Experts (MoE): por qué solo se activan 49B
Aquí es donde se pone interesante. DeepSeek V4 es un modelo Mixture of Experts (MoE), no un transformer denso donde cada parámetro se activa para cada token.
En un modelo MoE:
- La red contiene muchas sub-redes "expertas" especializadas
- Para cada token, un enrutador selecciona solo un pequeño subconjunto de expertos para activar
- Solo esos expertos contribuyen a la salida
Para DeepSeek-V4-Pro, el enrutador activa 49.000 millones de parámetros por token de los 1,6 billones totales — aproximadamente el 3% de la red. Esto le proporciona el conocimiento de un modelo de 1,6 billones al coste de un presupuesto de cómputo de 49.000 millones.
Por eso los modelos MoE pueden ser extraordinariamente capaces sin requerir proporcionalmente más cómputo que modelos densos mucho más pequeños.
Precisión: FP4 + FP8 mixto
Los pesos de DeepSeek V4 no se almacenan con plena precisión de 32 bits. En cambio:
- Los parámetros de los expertos MoE utilizan precisión FP4 (punto flotante de 4 bits)
- La mayoría del resto de parámetros utilizan precisión FP8 (punto flotante de 8 bits)
Este enfoque de precisión mixta reduce drásticamente la huella de memoria sin afectar significativamente la calidad del modelo, haciendo viable su ejecución en hardware accesible (más detalles en la guía de despliegue local).
Los modelos Base (V4-Pro-Base y V4-Flash-Base) usan precisión FP8 Mixed en todos sus parámetros.
Cómo se comparan los parámetros de V4-Pro con los de la competencia
| Modelo | Parámetros (total) | Parámetros (activos) | ¿Open Weight? |
|---|---|---|---|
| DeepSeek-V4-Pro | 1,6 billones | 49.000 M | ✅ Sí (MIT) |
| DeepSeek-V3.2 | 671.000 M | 37.000 M | ✅ Sí |
| GPT-5.5 | No revelado | No revelado | ❌ No |
| Claude Opus 4.7 | No revelado | No revelado | ❌ No |
| Gemini-3.1-Pro | No revelado | No revelado | ❌ No |
La ventaja clave: DeepSeek V4-Pro es el mayor modelo open-weight disponible hoy en día y, a diferencia de los competidores cerrados, puedes inspeccionarlo, ajustarlo y desplegarlo tú mismo.
Qué significan los 284.000 millones de parámetros de DeepSeek V4-Flash
V4-Flash con 284.000 millones en total / 13.000 millones activos no es ninguna opción menor. Con 13.000 millones de parámetros activos por token, su coste computacional es comparable al de un modelo denso de tamaño medio como Llama 3.3 70B, pero trae el conocimiento y las mejoras arquitectónicas de un sistema con 284.000 millones de parámetros en total.
En la práctica:
- Flash alcanza un rendimiento cercano al de Pro en tareas simples y de complejidad media
- Con un mayor "presupuesto de razonamiento" (modo Think Max), Flash logra puntuaciones comparables a los modelos frontier anteriores
- Flash funciona con mucha menos memoria GPU y cuesta aproximadamente 10 veces menos a través de la API
Para desarrolladores que crean aplicaciones de alto volumen en plataformas como Framia.pro, la eficiencia de parámetros de Flash lo convierte en la opción ideal para cargas de trabajo de IA creativa rentables y de alto rendimiento.
Por qué el número de parámetros importa para tu caso de uso
Aquí está la conclusión práctica:
- Elige V4-Pro cuando necesites máxima profundidad de conocimiento, codificación de primer nivel mundial, razonamiento complejo sobre documentos largos o comparaciones contra modelos frontier
- Elige V4-Flash cuando necesites velocidad, eficiencia de coste o estés ejecutando llamadas a la API de alto volumen donde el presupuesto importa
Ambos modelos se benefician de las mismas innovaciones arquitectónicas — el mecanismo de atención híbrida (CSA + HCA), mHC y el optimizador Muon — la única diferencia significativa es la escala de parámetros y el techo de rendimiento resultante.
Conclusión
Los 1,6 billones de parámetros totales de DeepSeek V4-Pro lo convierten en el LLM open-weight más capaz disponible hoy — pero la verdadera magia está en la arquitectura MoE que mantiene los costes de inferencia bajo control. Solo 49.000 millones de parámetros se activan por token, lo que significa que obtienes conocimiento a escala de billones a una fracción del coste computacional.
Comprender esta distinción es esencial para cualquiera que despliegue DeepSeek V4 en producción, ya sea ejecutando el modelo localmente o accediendo a él a través de la API.