Faire tourner DeepSeek V4 en local : guide complet (2026)

Découvrez comment exécuter DeepSeek V4-Flash et V4-Pro en local. Configuration matérielle, téléchargement, setup d'inférence, options quantifiées et benchmarks de performance.

Exécuter DeepSeek V4 en local : configuration requise et guide d'installation

Faire tourner DeepSeek V4 en local vous offre une confidentialité totale, aucun coût API au token, et un contrôle complet sur les paramètres d'inférence. V4-Pro et V4-Flash sont tous deux des modèles open-weight sous licence MIT, disponibles gratuitement sur HuggingFace. Voici tout ce que vous devez savoir pour les exécuter sur votre propre matériel.

Déploiement local ou API : que choisir ?

Avant de passer à la configuration, réfléchissez à votre cas d'usage :

Facteur	Déploiement local	API
Coût (volume élevé)	✅ Plus faible (matériel amorti)	❌ Frais au token
Confidentialité	✅ Totale	❌ Données envoyées à DeepSeek
Complexité du setup	❌ Élevée	✅ Nulle
Latence	✅ Pas d'aller-retour réseau	❌ Dépend du réseau
Matériel nécessaire	❌ Conséquent	✅ Aucun
Dernières versions du modèle	❌ Mises à jour manuelles	✅ Automatiques

Le déploiement local est idéal pour : les exigences de confidentialité en entreprise, la production à fort volume où les coûts GPU s'amortissent en dessous du tarif API, et les workflows de recherche/fine-tuning.

Configuration matérielle requise

DeepSeek-V4-Flash (284B / 13B actifs)

Pleine précision (FP8 + FP4 mixte) :

Taille du téléchargement : ~160 Go
VRAM nécessaire : ~160 Go
GPU recommandé : 2× NVIDIA H100 80 Go, ou 2× H200, ou 4× A100 40 Go

Quantifié (GGUF/GPTQ communautaire) :

Taille : ~80 Go (quantification 4 bits)
VRAM nécessaire : ~80 Go
Faisable sur : 1× NVIDIA RTX 5090, ou 2× RTX 4090 (24 Go chacun = 48 Go — insuffisant seul, nécessite un déchargement CPU)
Avec déchargement CPU : RTX 5090 + 64 Go+ de RAM système

DeepSeek-V4-Pro (1,6T / 49B actifs)

Pleine précision (FP8 + FP4 mixte) :

Taille du téléchargement : ~865 Go
VRAM nécessaire : ~865 Go
Cluster recommandé : 16× NVIDIA H100 80 Go, ou équivalent
Minimum viable : 12× H100 80 Go avec serving optimisé

Quantifié (builds communautaires) :

Taille : ~200–400 Go (quantification 4 ou 8 bits)
VRAM nécessaire : ~200–400 Go
Faisable sur : 4–8× H100 80 Go, ou 8–16× A100 40 Go

Avis honnête : Le déploiement local de V4-Pro n'est pratique que pour les organisations disposant d'une infrastructure GPU conséquente. V4-Flash est l'option accessible pour les particuliers et les petites équipes.

Étape 1 : Télécharger les poids du modèle

Via HuggingFace CLI (recommandé)

# Installer le CLI
pip install huggingface_hub

# Télécharger le modèle V4-Flash instruct (~160 Go)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# Télécharger V4-Flash Base (optionnel, pour le fine-tuning)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

L'option --resume-download est indispensable pour ces téléchargements volumineux — elle permet de reprendre un téléchargement interrompu sans perdre la progression.

Via ModelScope (plus rapide en Chine)

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

Étape 2 : Configurer l'environnement d'inférence

DeepSeek V4 nécessite des scripts d'encodage personnalisés pour le template de chat. Clonez les outils d'inférence du modèle :

# Cloner uniquement le dossier d'inférence depuis le dépôt
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

Installer les dépendances :

pip install transformers torch accelerate

Étape 3 : Exécuter une inférence de base

Utilisez les scripts d'encodage fournis :

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# Charger le tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# Charger le modèle (avec mappage automatique des appareils pour multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # Répartit sur les GPU disponibles
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# Encoder une conversation
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# Mode sans réflexion
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# Générer
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

Étape 4 : Quantifications communautaires (llama.cpp / Ollama)

Si votre matériel est limité, les quantifications communautaires réduisent considérablement les besoins :

Avec Ollama (le plus simple)

# Installer Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Récupérer le V4-Flash quantifié par la communauté (vérifier la bibliothèque Ollama pour les versions disponibles)
ollama pull deepseek-v4-flash:q4_k_m

# Lancer
ollama run deepseek-v4-flash:q4_k_m

Avec llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# Télécharger le V4-Flash quantifié GGUF depuis les dépôts communautaires HuggingFace
# Puis lancer :
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

Paramètres d'échantillonnage recommandés

DeepSeek recommande officiellement :

temperature = 1.0
top_p = 1.0

Pour le mode Think Max, assurez-vous que votre fenêtre de contexte est réglée sur au moins 384K tokens.

Performances attendues

Matériel	Modèle	Débit (approx.)
2× H100 80 Go	V4-Flash	~40–80 tokens/sec
4× A100 40 Go	V4-Flash	~20–40 tokens/sec
8× H100 80 Go	V4-Flash	~100–150 tokens/sec
16× H100 80 Go	V4-Pro	~15–30 tokens/sec
RTX 5090 (quantifié)	V4-Flash Q4	~5–15 tokens/sec

Ce sont des estimations approximatives — le débit réel dépend de la longueur du contexte, de la taille des lots et des optimisations du framework.

Avantages en matière de confidentialité pour les entreprises

Pour les entreprises traitant des données sensibles — dossiers médicaux, documents juridiques, données financières — le déploiement local de DeepSeek V4 garantit qu'aucune donnée ne quitte votre infrastructure. Contrairement aux services basés sur des API, il n'y a pas de rétention de données, pas de journalisation sur des serveurs tiers, et aucune préoccupation de conformité liée à l'envoi d'informations propriétaires vers des API externes.

C'est particulièrement pertinent pour des plateformes comme Framia.pro dont les clients entreprise ont besoin d'outils créatifs basés sur l'IA sans contraintes liées à la souveraineté des données.

Conclusion

Faire fonctionner DeepSeek V4-Flash en local est faisable sur une configuration dual-H100 ou sur un matériel quantifié haut de gamme. V4-Pro nécessite une infrastructure GPU conséquente mais offre des capacités open-source inégalées. La licence MIT signifie que vous contrôlez entièrement le déploiement — un avantage clé pour les cas d'usage sensibles à la confidentialité et à fort volume.