Fiche modèle complète DeepSeek V4 : spécifications, référence API, tarification, tableau de benchmarks, guide de déploiement local et notes techniques pour V4-Pro et V4-Flash.
Fiche Modèle DeepSeek V4 : Référence Technique Complète pour Développeurs
La fiche modèle DeepSeek V4 rassemble tout ce dont un développeur a besoin pour comprendre et déployer la série V4. Cette référence couvre les spécifications techniques complètes, les méthodes d'accès, les limitations connues et les directives d'utilisation pour V4-Pro et V4-Flash.
Identité du modèle
| Champ |
DeepSeek-V4-Pro |
DeepSeek-V4-Flash |
| ID du modèle |
deepseek-v4-pro |
deepseek-v4-flash |
| Développeur |
DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.) |
|
| Date de publication |
24 avril 2026 (Préversion) |
|
| Licence |
MIT License |
|
| Type de modèle |
Transformer décodeur uniquement, MoE |
|
| Architecture |
Attention hybride (CSA + HCA) + mHC |
|
| Paramètres totaux |
1,6 Bill. |
284 Mrd. |
| Paramètres actifs |
49 Mrd. |
13 Mrd. |
| Longueur de contexte |
1 000 000 tokens |
1 000 000 tokens |
| Précision |
FP4 + FP8 mixte |
FP4 + FP8 mixte |
| Taille du téléchargement |
~865 Go |
~160 Go |
Dépôts HuggingFace
| Dépôt |
Type |
URL |
| DeepSeek-V4-Pro |
Instruct (ajusté RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro |
| DeepSeek-V4-Pro-Base |
Base préentraînée |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base |
| DeepSeek-V4-Flash |
Instruct (ajusté RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash |
| DeepSeek-V4-Flash-Base |
Base préentraînée |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base |
Référence API
Points de terminaison
- URL de base :
https://api.deepseek.com/v1
- Complétions de chat :
POST /chat/completions
- Formats compatibles : OpenAI ChatCompletions API, Anthropic Messages API
Noms de modèles (API)
deepseek-v4-pro — Modèle phare toutes fonctionnalités
deepseek-v4-flash — Rapide et économique
⚠️ Déprécié (retrait le 24 juillet 2026) : deepseek-chat, deepseek-reasoner
Tarification
| Modèle |
Entrée |
Sortie |
| deepseek-v4-flash |
0,14 $ / 1 M de tokens |
0,28 $ / 1 M de tokens |
| deepseek-v4-pro |
1,74 $ / 1 M de tokens |
3,48 $ / 1 M de tokens |
Détails de l'architecture
Système d'attention hybride
| Type de couche |
Mécanisme |
Objectif |
| Couches de tokens récents |
Attention standard |
Fidélité maximale pour le contexte proche |
| Couches de tokens à distance moyenne |
Compressed Sparse Attention (CSA) |
Accès efficace au contexte à distance modérée |
| Couches de tokens à longue distance |
Heavily Compressed Attention (HCA) |
Représentation compacte de l'historique distant |
Efficacité par rapport à V3.2 pour un contexte de 1 M :
- FLOPs : 27 % de V3.2 (réduction de 73 %)
- Cache KV : 10 % de V3.2 (réduction de 90 %)
Innovations d'entraînement
| Innovation |
Description |
| Optimiseur |
Muon (remplace AdamW) |
| Connexions résiduelles |
mHC (Manifold-Constrained Hyper-Connections) |
| Données de préentraînement |
32 Bill.+ tokens diversifiés |
| Post-entraînement Phase 1 |
Spécialisation des experts via SFT + RL (GRPO) |
| Post-entraînement Phase 2 |
Consolidation unifiée via distillation on-policy |
Modes d'inférence
| Mode |
Paramètre API |
Budget de réflexion |
Exigence de contexte |
| Sans réflexion |
"thinking": {"type": "disabled"} |
Aucun |
Standard |
| Réflexion élevée |
"thinking": {"type": "enabled", "budget_tokens": N} |
Défini par l'utilisateur |
Standard |
| Réflexion maximale |
Prompt système spécial + "thinking": {"type": "max"} |
Étendu |
384K+ tokens recommandés |
Paramètres d'échantillonnage recommandés
{
"temperature": 1.0,
"top_p": 1.0
}
Référence des benchmarks
V4-Pro-Max face aux modèles de pointe
| Benchmark |
V4-Pro Max |
Opus 4.6 Max |
GPT-5.4 xHigh |
Gemini-3.1-Pro High |
| MMLU-Pro |
87,5 % |
89,1 % |
87,5 % |
91,0 % |
| GPQA Diamond |
90,1 % |
91,3 % |
93,0 % |
94,3 % |
| HLE |
37,7 % |
40,0 % |
39,8 % |
44,4 % |
| LiveCodeBench |
93,5 % |
88,8 % |
N/D |
91,7 % |
| Codeforces |
3206 |
N/D |
3168 |
3052 |
| SWE-bench Verified |
80,6 % |
80,8 % |
N/D |
80,6 % |
| SWE-bench Pro |
55,4 % |
57,3 % |
57,7 % |
54,2 % |
| Terminal Bench 2.0 |
67,9 % |
65,4 % |
75,1 % |
68,5 % |
| MRCR 1M |
83,5 % |
92,9 % |
N/D |
76,3 % |
| CorpusQA 1M |
62,0 % |
71,7 % |
N/D |
53,8 % |
Référence de déploiement local
| Configuration |
Stockage |
VRAM |
Configuration GPU minimale |
| V4-Flash (complet) |
160 Go |
~160 Go |
2× H100 80 Go |
| V4-Flash (quantisation Q4) |
~80 Go |
~80 Go |
RTX 5090 |
| V4-Pro (complet) |
865 Go |
~865 Go |
16× H100 80 Go |
| V4-Pro (quantisation Q4) |
~200–400 Go |
~200–400 Go |
4–8× H100 80 Go |
Modèle de chat
DeepSeek V4 n'utilise pas de modèle de chat Jinja HuggingFace standard. Utilisez les scripts d'encodage personnalisés dans le dossier encoding/ de chaque dépôt.
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
prompt = encode_messages(messages, thinking_mode="no_think")
# Options : "no_think", "thinking", "max_thinking"
Limitations connues
- Texte uniquement au lancement : Pas de compréhension native des images, de l'audio ou de la vidéo dans la version préliminaire d'avril 2026
- Statut préversion : Des cas limites peuvent exister ; DeepSeek recommande de suivre les comptes officiels pour les mises à jour
- Exigence de contexte pour Think Max : Une fenêtre de contexte de 384K+ tokens est requise pour les meilleures performances en mode Think Max
- Téléchargement volumineux : V4-Pro à 865 Go nécessite une bande passante et un stockage importants pour un déploiement local
- Modèle de chat : L'encodage non standard exige l'utilisation des scripts fournis par le dépôt plutôt que des outils standard HuggingFace
- Twitter officiel : @deepseek_ai
- GitHub : github.com/deepseek-ai
- HuggingFace : huggingface.co/deepseek-ai
- Documentation API : api-docs.deepseek.com
- E-mail : service@deepseek.com
- Chat web : chat.deepseek.com
Pour les développeurs qui construisent sur des plateformes comme Framia.pro intégrant les capacités de DeepSeek V4, cette fiche modèle constitue la référence technique faisant autorité pour toutes les décisions d'intégration.
Citation
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}