Fiche Modèle DeepSeek V4 : Référence Technique Complète (2026)

Fiche modèle complète DeepSeek V4 : spécifications, référence API, tarification, tableau de benchmarks, guide de déploiement local et notes techniques pour V4-Pro et V4-Flash.

Fiche Modèle DeepSeek V4 : Référence Technique Complète pour Développeurs

La fiche modèle DeepSeek V4 rassemble tout ce dont un développeur a besoin pour comprendre et déployer la série V4. Cette référence couvre les spécifications techniques complètes, les méthodes d'accès, les limitations connues et les directives d'utilisation pour V4-Pro et V4-Flash.

Identité du modèle

Champ	DeepSeek-V4-Pro	DeepSeek-V4-Flash
ID du modèle	`deepseek-v4-pro`	`deepseek-v4-flash`
Développeur	DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Date de publication	24 avril 2026 (Préversion)
Licence	MIT License
Type de modèle	Transformer décodeur uniquement, MoE
Architecture	Attention hybride (CSA + HCA) + mHC
Paramètres totaux	1,6 Bill.	284 Mrd.
Paramètres actifs	49 Mrd.	13 Mrd.
Longueur de contexte	1 000 000 tokens	1 000 000 tokens
Précision	FP4 + FP8 mixte	FP4 + FP8 mixte
Taille du téléchargement	~865 Go	~160 Go

Dépôts HuggingFace

Dépôt	Type	URL
DeepSeek-V4-Pro	Instruct (ajusté RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	Base préentraînée	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	Instruct (ajusté RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	Base préentraînée	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Référence API

Points de terminaison

URL de base : https://api.deepseek.com/v1
Complétions de chat : POST /chat/completions
Formats compatibles : OpenAI ChatCompletions API, Anthropic Messages API

Noms de modèles (API)

deepseek-v4-pro — Modèle phare toutes fonctionnalités
deepseek-v4-flash — Rapide et économique

⚠️ Déprécié (retrait le 24 juillet 2026) : deepseek-chat, deepseek-reasoner

Tarification

Modèle	Entrée	Sortie
deepseek-v4-flash	0,14 $ / 1 M de tokens	0,28 $ / 1 M de tokens
deepseek-v4-pro	1,74 $ / 1 M de tokens	3,48 $ / 1 M de tokens

Détails de l'architecture

Système d'attention hybride

Type de couche	Mécanisme	Objectif
Couches de tokens récents	Attention standard	Fidélité maximale pour le contexte proche
Couches de tokens à distance moyenne	Compressed Sparse Attention (CSA)	Accès efficace au contexte à distance modérée
Couches de tokens à longue distance	Heavily Compressed Attention (HCA)	Représentation compacte de l'historique distant

Efficacité par rapport à V3.2 pour un contexte de 1 M :

FLOPs : 27 % de V3.2 (réduction de 73 %)
Cache KV : 10 % de V3.2 (réduction de 90 %)

Innovations d'entraînement

Innovation	Description
Optimiseur	Muon (remplace AdamW)
Connexions résiduelles	mHC (Manifold-Constrained Hyper-Connections)
Données de préentraînement	32 Bill.+ tokens diversifiés
Post-entraînement Phase 1	Spécialisation des experts via SFT + RL (GRPO)
Post-entraînement Phase 2	Consolidation unifiée via distillation on-policy

Modes d'inférence

Mode	Paramètre API	Budget de réflexion	Exigence de contexte
Sans réflexion	`"thinking": {"type": "disabled"}`	Aucun	Standard
Réflexion élevée	`"thinking": {"type": "enabled", "budget_tokens": N}`	Défini par l'utilisateur	Standard
Réflexion maximale	Prompt système spécial + `"thinking": {"type": "max"}`	Étendu	384K+ tokens recommandés

Paramètres d'échantillonnage recommandés

{
  "temperature": 1.0,
  "top_p": 1.0
}

Référence des benchmarks

V4-Pro-Max face aux modèles de pointe

Benchmark	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87,5 %	89,1 %	87,5 %	91,0 %
GPQA Diamond	90,1 %	91,3 %	93,0 %	94,3 %
HLE	37,7 %	40,0 %	39,8 %	44,4 %
LiveCodeBench	93,5 %	88,8 %	N/D	91,7 %
Codeforces	3206	N/D	3168	3052
SWE-bench Verified	80,6 %	80,8 %	N/D	80,6 %
SWE-bench Pro	55,4 %	57,3 %	57,7 %	54,2 %
Terminal Bench 2.0	67,9 %	65,4 %	75,1 %	68,5 %
MRCR 1M	83,5 %	92,9 %	N/D	76,3 %
CorpusQA 1M	62,0 %	71,7 %	N/D	53,8 %

Référence de déploiement local

Configuration	Stockage	VRAM	Configuration GPU minimale
V4-Flash (complet)	160 Go	~160 Go	2× H100 80 Go
V4-Flash (quantisation Q4)	~80 Go	~80 Go	RTX 5090
V4-Pro (complet)	865 Go	~865 Go	16× H100 80 Go
V4-Pro (quantisation Q4)	~200–400 Go	~200–400 Go	4–8× H100 80 Go

Modèle de chat

DeepSeek V4 n'utilise pas de modèle de chat Jinja HuggingFace standard. Utilisez les scripts d'encodage personnalisés dans le dossier encoding/ de chaque dépôt.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Options : "no_think", "thinking", "max_thinking"

Limitations connues

Texte uniquement au lancement : Pas de compréhension native des images, de l'audio ou de la vidéo dans la version préliminaire d'avril 2026
Statut préversion : Des cas limites peuvent exister ; DeepSeek recommande de suivre les comptes officiels pour les mises à jour
Exigence de contexte pour Think Max : Une fenêtre de contexte de 384K+ tokens est requise pour les meilleures performances en mode Think Max
Téléchargement volumineux : V4-Pro à 865 Go nécessite une bande passante et un stockage importants pour un déploiement local
Modèle de chat : L'encodage non standard exige l'utilisation des scripts fournis par le dépôt plutôt que des outils standard HuggingFace

Contact et support

Twitter officiel : @deepseek_ai
GitHub : github.com/deepseek-ai
HuggingFace : huggingface.co/deepseek-ai
Documentation API : api-docs.deepseek.com
E-mail : service@deepseek.com
Chat web : chat.deepseek.com

Pour les développeurs qui construisent sur des plateformes comme Framia.pro intégrant les capacités de DeepSeek V4, cette fiche modèle constitue la référence technique faisant autorité pour toutes les décisions d'intégration.

Citation

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}