Exécuter DeepSeek V4 en local : configuration requise et guide d'installation
Faire tourner DeepSeek V4 en local vous offre une confidentialité totale, aucun coût API au token, et un contrôle complet sur les paramètres d'inférence. V4-Pro et V4-Flash sont tous deux des modèles open-weight sous licence MIT, disponibles gratuitement sur HuggingFace. Voici tout ce que vous devez savoir pour les exécuter sur votre propre matériel.
Déploiement local ou API : que choisir ?
Avant de passer à la configuration, réfléchissez à votre cas d'usage :
| Facteur | Déploiement local | API |
|---|---|---|
| Coût (volume élevé) | ✅ Plus faible (matériel amorti) | ❌ Frais au token |
| Confidentialité | ✅ Totale | ❌ Données envoyées à DeepSeek |
| Complexité du setup | ❌ Élevée | ✅ Nulle |
| Latence | ✅ Pas d'aller-retour réseau | ❌ Dépend du réseau |
| Matériel nécessaire | ❌ Conséquent | ✅ Aucun |
| Dernières versions du modèle | ❌ Mises à jour manuelles | ✅ Automatiques |
Le déploiement local est idéal pour : les exigences de confidentialité en entreprise, la production à fort volume où les coûts GPU s'amortissent en dessous du tarif API, et les workflows de recherche/fine-tuning.
Configuration matérielle requise
DeepSeek-V4-Flash (284B / 13B actifs)
Pleine précision (FP8 + FP4 mixte) :
- Taille du téléchargement : ~160 Go
- VRAM nécessaire : ~160 Go
- GPU recommandé : 2× NVIDIA H100 80 Go, ou 2× H200, ou 4× A100 40 Go
Quantifié (GGUF/GPTQ communautaire) :
- Taille : ~80 Go (quantification 4 bits)
- VRAM nécessaire : ~80 Go
- Faisable sur : 1× NVIDIA RTX 5090, ou 2× RTX 4090 (24 Go chacun = 48 Go — insuffisant seul, nécessite un déchargement CPU)
- Avec déchargement CPU : RTX 5090 + 64 Go+ de RAM système
DeepSeek-V4-Pro (1,6T / 49B actifs)
Pleine précision (FP8 + FP4 mixte) :
- Taille du téléchargement : ~865 Go
- VRAM nécessaire : ~865 Go
- Cluster recommandé : 16× NVIDIA H100 80 Go, ou équivalent
- Minimum viable : 12× H100 80 Go avec serving optimisé
Quantifié (builds communautaires) :
- Taille : ~200–400 Go (quantification 4 ou 8 bits)
- VRAM nécessaire : ~200–400 Go
- Faisable sur : 4–8× H100 80 Go, ou 8–16× A100 40 Go
Avis honnête : Le déploiement local de V4-Pro n'est pratique que pour les organisations disposant d'une infrastructure GPU conséquente. V4-Flash est l'option accessible pour les particuliers et les petites équipes.
Étape 1 : Télécharger les poids du modèle
Via HuggingFace CLI (recommandé)
# Installer le CLI
pip install huggingface_hub
# Télécharger le modèle V4-Flash instruct (~160 Go)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/DeepSeek-V4-Flash \
--resume-download
# Télécharger V4-Flash Base (optionnel, pour le fine-tuning)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
--local-dir ./models/DeepSeek-V4-Flash-Base \
--resume-download
L'option --resume-download est indispensable pour ces téléchargements volumineux — elle permet de reprendre un téléchargement interrompu sans perdre la progression.
Via ModelScope (plus rapide en Chine)
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash
Étape 2 : Configurer l'environnement d'inférence
DeepSeek V4 nécessite des scripts d'encodage personnalisés pour le template de chat. Clonez les outils d'inférence du modèle :
# Cloner uniquement le dossier d'inférence depuis le dépôt
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo
Installer les dépendances :
pip install transformers torch accelerate
Étape 3 : Exécuter une inférence de base
Utilisez les scripts d'encodage fournis :
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch
model_path = "./models/DeepSeek-V4-Flash"
# Charger le tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)
# Charger le modèle (avec mappage automatique des appareils pour multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto", # Répartit sur les GPU disponibles
torch_dtype=torch.float8_e4m3fn,
trust_remote_code=True
)
# Encoder une conversation
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to reverse a linked list."}
]
# Mode sans réflexion
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
# Générer
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=2048,
temperature=1.0,
top_p=1.0,
do_sample=True
)
response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))
Étape 4 : Quantifications communautaires (llama.cpp / Ollama)
Si votre matériel est limité, les quantifications communautaires réduisent considérablement les besoins :
Avec Ollama (le plus simple)
# Installer Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# Récupérer le V4-Flash quantifié par la communauté (vérifier la bibliothèque Ollama pour les versions disponibles)
ollama pull deepseek-v4-flash:q4_k_m
# Lancer
ollama run deepseek-v4-flash:q4_k_m
Avec llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8
# Télécharger le V4-Flash quantifié GGUF depuis les dépôts communautaires HuggingFace
# Puis lancer :
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
-n 2048 \
--ctx-size 8192 \
-p "You are a helpful assistant."
Paramètres d'échantillonnage recommandés
DeepSeek recommande officiellement :
temperature = 1.0
top_p = 1.0
Pour le mode Think Max, assurez-vous que votre fenêtre de contexte est réglée sur au moins 384K tokens.
Performances attendues
| Matériel | Modèle | Débit (approx.) |
|---|---|---|
| 2× H100 80 Go | V4-Flash | ~40–80 tokens/sec |
| 4× A100 40 Go | V4-Flash | ~20–40 tokens/sec |
| 8× H100 80 Go | V4-Flash | ~100–150 tokens/sec |
| 16× H100 80 Go | V4-Pro | ~15–30 tokens/sec |
| RTX 5090 (quantifié) | V4-Flash Q4 | ~5–15 tokens/sec |
Ce sont des estimations approximatives — le débit réel dépend de la longueur du contexte, de la taille des lots et des optimisations du framework.
Avantages en matière de confidentialité pour les entreprises
Pour les entreprises traitant des données sensibles — dossiers médicaux, documents juridiques, données financières — le déploiement local de DeepSeek V4 garantit qu'aucune donnée ne quitte votre infrastructure. Contrairement aux services basés sur des API, il n'y a pas de rétention de données, pas de journalisation sur des serveurs tiers, et aucune préoccupation de conformité liée à l'envoi d'informations propriétaires vers des API externes.
C'est particulièrement pertinent pour des plateformes comme Framia.pro dont les clients entreprise ont besoin d'outils créatifs basés sur l'IA sans contraintes liées à la souveraineté des données.
Conclusion
Faire fonctionner DeepSeek V4-Flash en local est faisable sur une configuration dual-H100 ou sur un matériel quantifié haut de gamme. V4-Pro nécessite une infrastructure GPU conséquente mais offre des capacités open-source inégalées. La licence MIT signifie que vous contrôlez entièrement le déploiement — un avantage clé pour les cas d'usage sensibles à la confidentialité et à fort volume.