Paramètres de DeepSeek V4 expliqués : 1,6 billion au total, 49B actifs

DeepSeek V4-Pro compte 1,6 billion de paramètres mais n'en active que 49B par token. Découvrez ce que ces chiffres signifient et pourquoi l'architecture MoE le rend si efficace.

by Framia

Paramètres de DeepSeek V4 expliqués : 1,6 billion au total, 49B actifs

Quand DeepSeek a annoncé que V4-Pro possédait 1,6 billion de paramètres, beaucoup ont eu du mal à y croire. C'est plus grand que la plupart des modèles open-weight existants. Mais voici la nuance essentielle : sur ces 1,6 billion de paramètres, seuls 49 milliards sont activés pour chaque token lors de l'inférence.

C'est cette distinction qui fait de DeepSeek V4 un modèle à la fois puissant et réellement déployable.


Les paramètres de DeepSeek V4 en un coup d'œil

Modèle Paramètres totaux Paramètres actifs Taille de téléchargement
DeepSeek-V4-Pro 1,6 billion 49 milliards ~865 Go
DeepSeek-V4-Flash 284 milliards 13 milliards ~160 Go
DeepSeek-V3.2 (prédécesseur) 671 milliards 37 milliards ~380 Go

Pour comparaison, V4-Pro est plus de deux fois plus grand que V3.2 en taille totale, tandis que V4-Flash représente environ 42 % de la taille de V3.2 — faisant de Flash une option légère remarquablement performante.


Que signifient réellement « 1,6 billion de paramètres » ?

Les paramètres sont les poids numériques appris stockés dans un réseau de neurones. Pendant l'entraînement, ces poids sont ajustés pour minimiser l'erreur de prédiction sur un immense jeu de données (dans le cas de DeepSeek V4, plus de 32 billions de tokens). À l'inférence, ces poids déterminent la façon dont le modèle répond à une entrée donnée.

Plus il y a de paramètres, plus le modèle peut généralement :

  • Stocker davantage de connaissances factuelles
  • Capturer des nuances linguistiques plus subtiles
  • Généraliser sur des tâches rares ou complexes

Avec 1,6 billion de paramètres, V4-Pro est l'un des plus grands modèles open-weight jamais publiés — lui conférant une extraordinaire étendue de connaissances et une profondeur de raisonnement exceptionnelle.


L'architecture Mixture of Experts (MoE) : pourquoi seuls 49B sont activés

C'est là que ça devient passionnant. DeepSeek V4 est un modèle Mixture of Experts (MoE) — et non un transformer dense où chaque paramètre se déclenche pour chaque token.

Dans un modèle MoE :

  • Le réseau contient de nombreux sous-réseaux « experts » spécialisés
  • Pour chaque token, un routeur sélectionne uniquement un petit sous-ensemble d'experts à activer
  • Seuls ces experts contribuent à la sortie

Pour DeepSeek-V4-Pro, le routeur active 49 milliards de paramètres par token sur les 1,6 billion au total — soit environ 3 % du réseau. Vous obtenez ainsi la connaissance d'un modèle à 1,6 billion de paramètres au coût d'un budget de calcul de 49 milliards.

C'est pourquoi les modèles MoE peuvent être extraordinairement performants sans nécessiter proportionnellement plus de calcul que des modèles denses beaucoup plus petits.


Précision : FP4 + FP8 en mixte

Les poids de DeepSeek V4 ne sont pas stockés en pleine précision 32 bits. À la place :

  • Les paramètres des experts MoE utilisent la précision FP4 (virgule flottante 4 bits)
  • La plupart des autres paramètres utilisent la précision FP8 (virgule flottante 8 bits)

Cette approche à précision mixte réduit considérablement l'empreinte mémoire sans impacter significativement la qualité du modèle, rendant son fonctionnement sur du matériel accessible tout à fait envisageable (plus de détails dans le guide de déploiement local).

Les modèles de base (V4-Pro-Base et V4-Flash-Base) utilisent la précision mixte FP8 sur l'ensemble de leurs paramètres.


Comment les paramètres de V4-Pro se comparent aux concurrents

Modèle Paramètres (total) Paramètres (actifs) Open Weight ?
DeepSeek-V4-Pro 1,6 billion 49 milliards ✅ Oui (MIT)
DeepSeek-V3.2 671 milliards 37 milliards ✅ Oui
GPT-5.5 Non divulgué Non divulgué ❌ Non
Claude Opus 4.7 Non divulgué Non divulgué ❌ Non
Gemini-3.1-Pro Non divulgué Non divulgué ❌ Non

L'avantage clé : DeepSeek V4-Pro est le plus grand modèle open-weight disponible aujourd'hui, et contrairement aux concurrents fermés, vous pouvez l'inspecter, le fine-tuner et le déployer vous-même.


Ce que signifient les 284 milliards de paramètres de DeepSeek V4-Flash

V4-Flash avec 284 milliards au total / 13 milliards actifs n'est pas à sous-estimer. Avec 13 milliards de paramètres actifs par token, il est comparable en coût de calcul à un modèle dense de taille moyenne comme Llama 3.3 70B — mais il embarque la connaissance et les améliorations architecturales d'un système à 284 milliards de paramètres au total.

En pratique :

  • Flash atteint des performances proches de Pro pour les tâches simples et de complexité moyenne
  • Avec un plus grand « budget de réflexion » (mode Think Max), Flash obtient des scores de raisonnement comparables aux anciens modèles frontier
  • Flash fonctionne avec beaucoup moins de mémoire GPU et coûte environ 10 fois moins via API

Pour les développeurs qui créent des applications à fort volume sur des plateformes comme Framia.pro, l'efficacité paramétrique de Flash en fait une option idéale pour des charges de travail IA créatives rentables et à haut débit.


Pourquoi le nombre de paramètres compte pour votre cas d'usage

Voici la conclusion pratique :

  • Choisissez V4-Pro lorsque vous avez besoin d'une profondeur maximale de connaissance, d'un codage de niveau mondial, d'un raisonnement complexe sur de longs documents, ou que vous comparez aux modèles frontier
  • Choisissez V4-Flash quand vous avez besoin de rapidité, d'efficacité en coût, ou que vous effectuez des appels API à grand volume avec des contraintes budgétaires

Les deux modèles bénéficient des mêmes innovations architecturales — le mécanisme d'attention hybride (CSA + HCA), mHC et l'optimiseur Muon — la seule différence significative étant l'échelle des paramètres et le plafond de performance résultant.


Conclusion

Les 1,6 billion de paramètres totaux de DeepSeek V4-Pro en font le LLM open-weight le plus performant disponible aujourd'hui — mais la véritable magie réside dans l'architecture MoE qui maintient les coûts d'inférence à un niveau raisonnable. Seuls 49 milliards de paramètres s'activent par token, ce qui signifie que vous obtenez une connaissance à l'échelle du billion pour une fraction du coût de calcul.

Comprendre cette distinction est essentiel pour quiconque déploie DeepSeek V4 en production, que vous exécutiez le modèle localement ou y accédiez via API.