Paramètres de DeepSeek V4 expliqués : 1,6 billion au total, 49B actifs
Quand DeepSeek a annoncé que V4-Pro possédait 1,6 billion de paramètres, beaucoup ont eu du mal à y croire. C'est plus grand que la plupart des modèles open-weight existants. Mais voici la nuance essentielle : sur ces 1,6 billion de paramètres, seuls 49 milliards sont activés pour chaque token lors de l'inférence.
C'est cette distinction qui fait de DeepSeek V4 un modèle à la fois puissant et réellement déployable.
Les paramètres de DeepSeek V4 en un coup d'œil
| Modèle | Paramètres totaux | Paramètres actifs | Taille de téléchargement |
|---|---|---|---|
| DeepSeek-V4-Pro | 1,6 billion | 49 milliards | ~865 Go |
| DeepSeek-V4-Flash | 284 milliards | 13 milliards | ~160 Go |
| DeepSeek-V3.2 (prédécesseur) | 671 milliards | 37 milliards | ~380 Go |
Pour comparaison, V4-Pro est plus de deux fois plus grand que V3.2 en taille totale, tandis que V4-Flash représente environ 42 % de la taille de V3.2 — faisant de Flash une option légère remarquablement performante.
Que signifient réellement « 1,6 billion de paramètres » ?
Les paramètres sont les poids numériques appris stockés dans un réseau de neurones. Pendant l'entraînement, ces poids sont ajustés pour minimiser l'erreur de prédiction sur un immense jeu de données (dans le cas de DeepSeek V4, plus de 32 billions de tokens). À l'inférence, ces poids déterminent la façon dont le modèle répond à une entrée donnée.
Plus il y a de paramètres, plus le modèle peut généralement :
- Stocker davantage de connaissances factuelles
- Capturer des nuances linguistiques plus subtiles
- Généraliser sur des tâches rares ou complexes
Avec 1,6 billion de paramètres, V4-Pro est l'un des plus grands modèles open-weight jamais publiés — lui conférant une extraordinaire étendue de connaissances et une profondeur de raisonnement exceptionnelle.
L'architecture Mixture of Experts (MoE) : pourquoi seuls 49B sont activés
C'est là que ça devient passionnant. DeepSeek V4 est un modèle Mixture of Experts (MoE) — et non un transformer dense où chaque paramètre se déclenche pour chaque token.
Dans un modèle MoE :
- Le réseau contient de nombreux sous-réseaux « experts » spécialisés
- Pour chaque token, un routeur sélectionne uniquement un petit sous-ensemble d'experts à activer
- Seuls ces experts contribuent à la sortie
Pour DeepSeek-V4-Pro, le routeur active 49 milliards de paramètres par token sur les 1,6 billion au total — soit environ 3 % du réseau. Vous obtenez ainsi la connaissance d'un modèle à 1,6 billion de paramètres au coût d'un budget de calcul de 49 milliards.
C'est pourquoi les modèles MoE peuvent être extraordinairement performants sans nécessiter proportionnellement plus de calcul que des modèles denses beaucoup plus petits.
Précision : FP4 + FP8 en mixte
Les poids de DeepSeek V4 ne sont pas stockés en pleine précision 32 bits. À la place :
- Les paramètres des experts MoE utilisent la précision FP4 (virgule flottante 4 bits)
- La plupart des autres paramètres utilisent la précision FP8 (virgule flottante 8 bits)
Cette approche à précision mixte réduit considérablement l'empreinte mémoire sans impacter significativement la qualité du modèle, rendant son fonctionnement sur du matériel accessible tout à fait envisageable (plus de détails dans le guide de déploiement local).
Les modèles de base (V4-Pro-Base et V4-Flash-Base) utilisent la précision mixte FP8 sur l'ensemble de leurs paramètres.
Comment les paramètres de V4-Pro se comparent aux concurrents
| Modèle | Paramètres (total) | Paramètres (actifs) | Open Weight ? |
|---|---|---|---|
| DeepSeek-V4-Pro | 1,6 billion | 49 milliards | ✅ Oui (MIT) |
| DeepSeek-V3.2 | 671 milliards | 37 milliards | ✅ Oui |
| GPT-5.5 | Non divulgué | Non divulgué | ❌ Non |
| Claude Opus 4.7 | Non divulgué | Non divulgué | ❌ Non |
| Gemini-3.1-Pro | Non divulgué | Non divulgué | ❌ Non |
L'avantage clé : DeepSeek V4-Pro est le plus grand modèle open-weight disponible aujourd'hui, et contrairement aux concurrents fermés, vous pouvez l'inspecter, le fine-tuner et le déployer vous-même.
Ce que signifient les 284 milliards de paramètres de DeepSeek V4-Flash
V4-Flash avec 284 milliards au total / 13 milliards actifs n'est pas à sous-estimer. Avec 13 milliards de paramètres actifs par token, il est comparable en coût de calcul à un modèle dense de taille moyenne comme Llama 3.3 70B — mais il embarque la connaissance et les améliorations architecturales d'un système à 284 milliards de paramètres au total.
En pratique :
- Flash atteint des performances proches de Pro pour les tâches simples et de complexité moyenne
- Avec un plus grand « budget de réflexion » (mode Think Max), Flash obtient des scores de raisonnement comparables aux anciens modèles frontier
- Flash fonctionne avec beaucoup moins de mémoire GPU et coûte environ 10 fois moins via API
Pour les développeurs qui créent des applications à fort volume sur des plateformes comme Framia.pro, l'efficacité paramétrique de Flash en fait une option idéale pour des charges de travail IA créatives rentables et à haut débit.
Pourquoi le nombre de paramètres compte pour votre cas d'usage
Voici la conclusion pratique :
- Choisissez V4-Pro lorsque vous avez besoin d'une profondeur maximale de connaissance, d'un codage de niveau mondial, d'un raisonnement complexe sur de longs documents, ou que vous comparez aux modèles frontier
- Choisissez V4-Flash quand vous avez besoin de rapidité, d'efficacité en coût, ou que vous effectuez des appels API à grand volume avec des contraintes budgétaires
Les deux modèles bénéficient des mêmes innovations architecturales — le mécanisme d'attention hybride (CSA + HCA), mHC et l'optimiseur Muon — la seule différence significative étant l'échelle des paramètres et le plafond de performance résultant.
Conclusion
Les 1,6 billion de paramètres totaux de DeepSeek V4-Pro en font le LLM open-weight le plus performant disponible aujourd'hui — mais la véritable magie réside dans l'architecture MoE qui maintient les coûts d'inférence à un niveau raisonnable. Seuls 49 milliards de paramètres s'activent par token, ce qui signifie que vous obtenez une connaissance à l'échelle du billion pour une fraction du coût de calcul.
Comprendre cette distinction est essentiel pour quiconque déploie DeepSeek V4 en production, que vous exécutiez le modèle localement ou y accédiez via API.