DeepSeek V4 sur HuggingFace : Comment accéder et télécharger les poids ouverts

Les poids de DeepSeek V4-Pro et V4-Flash sont disponibles gratuitement sur HuggingFace sous licence MIT. Découvrez comment les télécharger, les exécuter localement ou y accéder via Framia.pro.

by Framia

DeepSeek V4 sur HuggingFace : Comment accéder et télécharger les poids ouverts

DeepSeek V4 est entièrement open-source, avec tous les poids du modèle disponibles publiquement sur HuggingFace sous la permissive licence MIT. Que vous souhaitiez exécuter le modèle localement, l'affiner pour votre cas d'usage ou simplement examiner son architecture, HuggingFace est le canal de distribution principal pour DeepSeek V4.

Ce guide vous explique exactement où trouver les modèles, ce que contient chaque dépôt, la taille des téléchargements et comment commencer à les utiliser.


Liens vers les dépôts HuggingFace de DeepSeek V4

DeepSeek a publié quatre dépôts de modèles dans la collection officielle deepseek-ai sur HuggingFace :

Dépôt Type Paramètres (Total / Actifs) Précision Taille
deepseek-ai/DeepSeek-V4-Flash-Base Base (pré-entraîné) 284B / 13B FP8 Mixed ~160 Go
deepseek-ai/DeepSeek-V4-Flash Instruct (affiné RLHF) 284B / 13B FP4 + FP8 Mixed ~160 Go
deepseek-ai/DeepSeek-V4-Pro-Base Base (pré-entraîné) 1.6T / 49B FP8 Mixed ~865 Go
deepseek-ai/DeepSeek-V4-Pro Instruct (affiné RLHF) 1.6T / 49B FP4 + FP8 Mixed ~865 Go

Les quatre dépôts font partie de la collection deepseek-ai/deepseek-v4.


Contenu de chaque dépôt

Chaque dépôt de modèle V4 contient :

  • Poids du modèle au format SafeTensors (répartis sur plusieurs fragments)
  • DeepSeek_V4.pdf — le rapport technique complet
  • Dossier encoding/ — scripts Python pour construire des prompts compatibles OpenAI et analyser les sorties du modèle
  • Dossier inference/ — instructions détaillées pour exécuter le modèle localement
  • LICENSE — fichier de licence MIT
  • README avec la fiche du modèle, les tableaux de benchmarks et les citations

Le rapport technique (DeepSeek_V4.pdf) est hébergé dans le dépôt Pro et couvre tous les détails de l'architecture, notamment le mécanisme Hybrid Attention, mHC et la méthodologie d'entraînement.


Licence : MIT, pas Apache

Une idée reçue fréquente est que DeepSeek utilise la licence Apache 2.0 (comme pour certains modèles antérieurs). DeepSeek V4 est publié sous la licence MIT, qui est encore plus permissive :

  • ✅ Usage commercial autorisé
  • ✅ Modification autorisée
  • ✅ Distribution autorisée
  • ✅ Usage privé autorisé
  • ✅ Aucune clause de brevet ni restriction supplémentaire

Cela signifie que vous pouvez créer des produits propriétaires basés sur V4, affiner et redistribuer des dérivés, et l'utiliser dans tout contexte commercial sans restriction (au-delà du maintien de la notice de copyright MIT).


Comment télécharger les poids de DeepSeek V4

Option 1 : HuggingFace CLI (Recommandé)

pip install huggingface_hub

# Télécharger V4-Flash (instruct, ~160 Go)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

# Télécharger V4-Pro (instruct, ~865 Go)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro

Option 2 : Python avec huggingface_hub

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="deepseek-ai/DeepSeek-V4-Flash",
    local_dir="./DeepSeek-V4-Flash"
)

Option 3 : ModelScope (Recommandé pour les utilisateurs en Chine)

DeepSeek V4 est également disponible sur ModelScope avec les mêmes chemins de dépôt (deepseek-ai/DeepSeek-V4-Flash, etc.), ce qui peut offrir des vitesses de téléchargement plus rapides depuis la Chine continentale.


Besoins en stockage et bande passante

Modèle Espace disque VRAM requise Configuration GPU recommandée
V4-Flash ~160 Go ~160 Go VRAM 2× H100 80 Go ou 8× A100 40 Go
V4-Pro ~865 Go ~865 Go VRAM 16× H100 80 Go (ou équivalent)
V4-Flash (quantifié) ~80 Go ~80 Go VRAM 2× RTX 4090 / 1× RTX 5090
V4-Pro (quantifié) ~200 Go ~200 Go VRAM 4 à 8× H100

Note : DeepSeek utilise une précision mixte FP4+FP8, de sorte que les poids bruts sont déjà fortement compressés. Des versions quantifiées par la communauté (GGUF/GPTQ) apparaissent sur HuggingFace et peuvent encore réduire ces exigences.


Exécution du modèle : points clés de configuration

DeepSeek V4 n'utilise pas le template Jinja de chat standard de HuggingFace. Vous devez utiliser les scripts d'encodage personnalisés fournis dans le dossier encoding/ du dépôt.

Un exemple minimal :

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "Expliquez l'architecture Hybrid Attention dans DeepSeek V4"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)

Pour une configuration complète de l'inférence, consultez inference/README.md dans chaque dépôt.


Activité communautaire sur HuggingFace

En quelques jours après le lancement du 24 avril 2026, le dépôt DeepSeek V4-Pro a enregistré plus de 123 000 téléchargements et 22 Spaces communautaires construits dessus. La communauté a rapidement produit :

  • Des quantifications GGUF pour llama.cpp (permettant l'inférence hybride CPU+GPU)
  • Des versions compatibles avec LM Studio
  • Des builds Ollama
  • Des packages compatibles Jan

Ces quantifications maintenues par la communauté permettent à V4-Flash de fonctionner sur une seule RTX 4090 — une prouesse remarquable pour un modèle de 284 milliards de paramètres.


DeepSeek V4 et les plateformes IA

Si vous préférez un accès API plutôt que la gestion de poids locaux, les modèles V4 sont également disponibles via plusieurs fournisseurs d'inférence. Des plateformes comme Framia.pro intègrent les modèles d'IA de pointe — y compris les dernières versions DeepSeek — pour offrir aux créateurs et développeurs un accès API fluide sans gestion d'infrastructure.


Conclusion

DeepSeek V4 sur HuggingFace est l'une des publications de modèles frontier les plus accessibles de l'histoire de l'IA. Quatre dépôts, une licence MIT, un rapport technique complet et des outils d'inférence personnalisés sont tous disponibles gratuitement. Que vous l'exécutiez sur un cluster GPU, expérimentiez avec des quantifications communautaires ou y accédiez via API, HuggingFace est votre point de départ.