Fiche Modèle DeepSeek V4 : Référence Technique Complète pour Développeurs

Fiche modèle complète DeepSeek V4 : spécifications, référence API, tarification, tableau de benchmarks, guide de déploiement local et notes techniques pour V4-Pro et V4-Flash.

by Framia

Fiche Modèle DeepSeek V4 : Référence Technique Complète pour Développeurs

La fiche modèle DeepSeek V4 rassemble tout ce dont un développeur a besoin pour comprendre et déployer la série V4. Cette référence couvre les spécifications techniques complètes, les méthodes d'accès, les limitations connues et les directives d'utilisation pour V4-Pro et V4-Flash.


Identité du modèle

Champ DeepSeek-V4-Pro DeepSeek-V4-Flash
ID du modèle deepseek-v4-pro deepseek-v4-flash
Développeur DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Date de publication 24 avril 2026 (Préversion)
Licence MIT License
Type de modèle Transformer décodeur uniquement, MoE
Architecture Attention hybride (CSA + HCA) + mHC
Paramètres totaux 1,6 Bill. 284 Mrd.
Paramètres actifs 49 Mrd. 13 Mrd.
Longueur de contexte 1 000 000 tokens 1 000 000 tokens
Précision FP4 + FP8 mixte FP4 + FP8 mixte
Taille du téléchargement ~865 Go ~160 Go

Dépôts HuggingFace

Dépôt Type URL
DeepSeek-V4-Pro Instruct (ajusté RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base Base préentraînée huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash Instruct (ajusté RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base Base préentraînée huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Référence API

Points de terminaison

  • URL de base : https://api.deepseek.com/v1
  • Complétions de chat : POST /chat/completions
  • Formats compatibles : OpenAI ChatCompletions API, Anthropic Messages API

Noms de modèles (API)

  • deepseek-v4-pro — Modèle phare toutes fonctionnalités
  • deepseek-v4-flash — Rapide et économique

⚠️ Déprécié (retrait le 24 juillet 2026) : deepseek-chat, deepseek-reasoner

Tarification

Modèle Entrée Sortie
deepseek-v4-flash 0,14 $ / 1 M de tokens 0,28 $ / 1 M de tokens
deepseek-v4-pro 1,74 $ / 1 M de tokens 3,48 $ / 1 M de tokens

Détails de l'architecture

Système d'attention hybride

Type de couche Mécanisme Objectif
Couches de tokens récents Attention standard Fidélité maximale pour le contexte proche
Couches de tokens à distance moyenne Compressed Sparse Attention (CSA) Accès efficace au contexte à distance modérée
Couches de tokens à longue distance Heavily Compressed Attention (HCA) Représentation compacte de l'historique distant

Efficacité par rapport à V3.2 pour un contexte de 1 M :

  • FLOPs : 27 % de V3.2 (réduction de 73 %)
  • Cache KV : 10 % de V3.2 (réduction de 90 %)

Innovations d'entraînement

Innovation Description
Optimiseur Muon (remplace AdamW)
Connexions résiduelles mHC (Manifold-Constrained Hyper-Connections)
Données de préentraînement 32 Bill.+ tokens diversifiés
Post-entraînement Phase 1 Spécialisation des experts via SFT + RL (GRPO)
Post-entraînement Phase 2 Consolidation unifiée via distillation on-policy

Modes d'inférence

Mode Paramètre API Budget de réflexion Exigence de contexte
Sans réflexion "thinking": {"type": "disabled"} Aucun Standard
Réflexion élevée "thinking": {"type": "enabled", "budget_tokens": N} Défini par l'utilisateur Standard
Réflexion maximale Prompt système spécial + "thinking": {"type": "max"} Étendu 384K+ tokens recommandés

Paramètres d'échantillonnage recommandés

{
  "temperature": 1.0,
  "top_p": 1.0
}

Référence des benchmarks

V4-Pro-Max face aux modèles de pointe

Benchmark V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87,5 % 89,1 % 87,5 % 91,0 %
GPQA Diamond 90,1 % 91,3 % 93,0 % 94,3 %
HLE 37,7 % 40,0 % 39,8 % 44,4 %
LiveCodeBench 93,5 % 88,8 % N/D 91,7 %
Codeforces 3206 N/D 3168 3052
SWE-bench Verified 80,6 % 80,8 % N/D 80,6 %
SWE-bench Pro 55,4 % 57,3 % 57,7 % 54,2 %
Terminal Bench 2.0 67,9 % 65,4 % 75,1 % 68,5 %
MRCR 1M 83,5 % 92,9 % N/D 76,3 %
CorpusQA 1M 62,0 % 71,7 % N/D 53,8 %

Référence de déploiement local

Configuration Stockage VRAM Configuration GPU minimale
V4-Flash (complet) 160 Go ~160 Go 2× H100 80 Go
V4-Flash (quantisation Q4) ~80 Go ~80 Go RTX 5090
V4-Pro (complet) 865 Go ~865 Go 16× H100 80 Go
V4-Pro (quantisation Q4) ~200–400 Go ~200–400 Go 4–8× H100 80 Go

Modèle de chat

DeepSeek V4 n'utilise pas de modèle de chat Jinja HuggingFace standard. Utilisez les scripts d'encodage personnalisés dans le dossier encoding/ de chaque dépôt.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Options : "no_think", "thinking", "max_thinking"

Limitations connues

  • Texte uniquement au lancement : Pas de compréhension native des images, de l'audio ou de la vidéo dans la version préliminaire d'avril 2026
  • Statut préversion : Des cas limites peuvent exister ; DeepSeek recommande de suivre les comptes officiels pour les mises à jour
  • Exigence de contexte pour Think Max : Une fenêtre de contexte de 384K+ tokens est requise pour les meilleures performances en mode Think Max
  • Téléchargement volumineux : V4-Pro à 865 Go nécessite une bande passante et un stockage importants pour un déploiement local
  • Modèle de chat : L'encodage non standard exige l'utilisation des scripts fournis par le dépôt plutôt que des outils standard HuggingFace

Contact et support

  • Twitter officiel : @deepseek_ai
  • GitHub : github.com/deepseek-ai
  • HuggingFace : huggingface.co/deepseek-ai
  • Documentation API : api-docs.deepseek.com
  • E-mail : service@deepseek.com
  • Chat web : chat.deepseek.com

Pour les développeurs qui construisent sur des plateformes comme Framia.pro intégrant les capacités de DeepSeek V4, cette fiche modèle constitue la référence technique faisant autorité pour toutes les décisions d'intégration.


Citation

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}