DeepSeek V4 sur HuggingFace : Comment accéder et télécharger les poids ouverts
DeepSeek V4 est entièrement open-source, avec tous les poids du modèle disponibles publiquement sur HuggingFace sous la permissive licence MIT. Que vous souhaitiez exécuter le modèle localement, l'affiner pour votre cas d'usage ou simplement examiner son architecture, HuggingFace est le canal de distribution principal pour DeepSeek V4.
Ce guide vous explique exactement où trouver les modèles, ce que contient chaque dépôt, la taille des téléchargements et comment commencer à les utiliser.
Liens vers les dépôts HuggingFace de DeepSeek V4
DeepSeek a publié quatre dépôts de modèles dans la collection officielle deepseek-ai sur HuggingFace :
| Dépôt | Type | Paramètres (Total / Actifs) | Précision | Taille |
|---|---|---|---|---|
| deepseek-ai/DeepSeek-V4-Flash-Base | Base (pré-entraîné) | 284B / 13B | FP8 Mixed | ~160 Go |
| deepseek-ai/DeepSeek-V4-Flash | Instruct (affiné RLHF) | 284B / 13B | FP4 + FP8 Mixed | ~160 Go |
| deepseek-ai/DeepSeek-V4-Pro-Base | Base (pré-entraîné) | 1.6T / 49B | FP8 Mixed | ~865 Go |
| deepseek-ai/DeepSeek-V4-Pro | Instruct (affiné RLHF) | 1.6T / 49B | FP4 + FP8 Mixed | ~865 Go |
Les quatre dépôts font partie de la collection deepseek-ai/deepseek-v4.
Contenu de chaque dépôt
Chaque dépôt de modèle V4 contient :
- Poids du modèle au format SafeTensors (répartis sur plusieurs fragments)
- DeepSeek_V4.pdf — le rapport technique complet
- Dossier encoding/ — scripts Python pour construire des prompts compatibles OpenAI et analyser les sorties du modèle
- Dossier inference/ — instructions détaillées pour exécuter le modèle localement
- LICENSE — fichier de licence MIT
- README avec la fiche du modèle, les tableaux de benchmarks et les citations
Le rapport technique (DeepSeek_V4.pdf) est hébergé dans le dépôt Pro et couvre tous les détails de l'architecture, notamment le mécanisme Hybrid Attention, mHC et la méthodologie d'entraînement.
Licence : MIT, pas Apache
Une idée reçue fréquente est que DeepSeek utilise la licence Apache 2.0 (comme pour certains modèles antérieurs). DeepSeek V4 est publié sous la licence MIT, qui est encore plus permissive :
- ✅ Usage commercial autorisé
- ✅ Modification autorisée
- ✅ Distribution autorisée
- ✅ Usage privé autorisé
- ✅ Aucune clause de brevet ni restriction supplémentaire
Cela signifie que vous pouvez créer des produits propriétaires basés sur V4, affiner et redistribuer des dérivés, et l'utiliser dans tout contexte commercial sans restriction (au-delà du maintien de la notice de copyright MIT).
Comment télécharger les poids de DeepSeek V4
Option 1 : HuggingFace CLI (Recommandé)
pip install huggingface_hub
# Télécharger V4-Flash (instruct, ~160 Go)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
# Télécharger V4-Pro (instruct, ~865 Go)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro
Option 2 : Python avec huggingface_hub
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="deepseek-ai/DeepSeek-V4-Flash",
local_dir="./DeepSeek-V4-Flash"
)
Option 3 : ModelScope (Recommandé pour les utilisateurs en Chine)
DeepSeek V4 est également disponible sur ModelScope avec les mêmes chemins de dépôt (deepseek-ai/DeepSeek-V4-Flash, etc.), ce qui peut offrir des vitesses de téléchargement plus rapides depuis la Chine continentale.
Besoins en stockage et bande passante
| Modèle | Espace disque | VRAM requise | Configuration GPU recommandée |
|---|---|---|---|
| V4-Flash | ~160 Go | ~160 Go VRAM | 2× H100 80 Go ou 8× A100 40 Go |
| V4-Pro | ~865 Go | ~865 Go VRAM | 16× H100 80 Go (ou équivalent) |
| V4-Flash (quantifié) | ~80 Go | ~80 Go VRAM | 2× RTX 4090 / 1× RTX 5090 |
| V4-Pro (quantifié) | ~200 Go | ~200 Go VRAM | 4 à 8× H100 |
Note : DeepSeek utilise une précision mixte FP4+FP8, de sorte que les poids bruts sont déjà fortement compressés. Des versions quantifiées par la communauté (GGUF/GPTQ) apparaissent sur HuggingFace et peuvent encore réduire ces exigences.
Exécution du modèle : points clés de configuration
DeepSeek V4 n'utilise pas le template Jinja de chat standard de HuggingFace. Vous devez utiliser les scripts d'encodage personnalisés fournis dans le dossier encoding/ du dépôt.
Un exemple minimal :
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
messages = [
{"role": "user", "content": "Expliquez l'architecture Hybrid Attention dans DeepSeek V4"}
]
prompt = encode_messages(messages, thinking_mode="thinking")
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)
Pour une configuration complète de l'inférence, consultez inference/README.md dans chaque dépôt.
Activité communautaire sur HuggingFace
En quelques jours après le lancement du 24 avril 2026, le dépôt DeepSeek V4-Pro a enregistré plus de 123 000 téléchargements et 22 Spaces communautaires construits dessus. La communauté a rapidement produit :
- Des quantifications GGUF pour llama.cpp (permettant l'inférence hybride CPU+GPU)
- Des versions compatibles avec LM Studio
- Des builds Ollama
- Des packages compatibles Jan
Ces quantifications maintenues par la communauté permettent à V4-Flash de fonctionner sur une seule RTX 4090 — une prouesse remarquable pour un modèle de 284 milliards de paramètres.
DeepSeek V4 et les plateformes IA
Si vous préférez un accès API plutôt que la gestion de poids locaux, les modèles V4 sont également disponibles via plusieurs fournisseurs d'inférence. Des plateformes comme Framia.pro intègrent les modèles d'IA de pointe — y compris les dernières versions DeepSeek — pour offrir aux créateurs et développeurs un accès API fluide sans gestion d'infrastructure.
Conclusion
DeepSeek V4 sur HuggingFace est l'une des publications de modèles frontier les plus accessibles de l'histoire de l'IA. Quatre dépôts, une licence MIT, un rapport technique complet et des outils d'inférence personnalisés sont tous disponibles gratuitement. Que vous l'exécutiez sur un cluster GPU, expérimentiez avec des quantifications communautaires ou y accédiez via API, HuggingFace est votre point de départ.