Entraînement DeepSeek V4 : architecture et méthodologie complètes (2026)

Comment DeepSeek V4 a été entraîné : plus de 32 billions de tokens, optimiseur Muon, mHC, Hybrid Attention et pipeline post-entraînement en deux étapes sur Huawei Ascend 950PR. Décryptage complet.

Entraînement de DeepSeek V4 : comment le modèle a été construit

Comprendre comment DeepSeek V4 a été entraîné permet de saisir pourquoi il performe aussi bien — et quelles décisions architecturales et de données ont conduit à un modèle qui dépasse les attentes en matière de codage, de raisonnement et de traitement de contextes longs. Ce guide couvre le pré-entraînement, le post-entraînement et les innovations clés qui distinguent V4 de ses prédécesseurs.

Pré-entraînement : échelle et données

Taille du jeu de données : plus de 32 billions de tokens

V4-Pro et V4-Flash ont tous deux été pré-entraînés sur plus de 32 billions de tokens de données variées et de haute qualité. C'est près du double des 18 billions de tokens estimés pour DeepSeek-V3, ce qui représente un investissement considérable en calcul d'entraînement et en curation des données.

Le corpus d'entraînement couvre :

Langue naturelle — textes web, livres, articles en dizaines de langues
Code — code source dans tous les principaux langages de programmation
Mathématiques — preuves formelles, problèmes de concours, manuels scolaires
Littérature scientifique — articles de recherche dans les disciplines STEM
Contenu multilingue — couverture multilingue étendue attestée par le score MMMLU de 90,3 %

Pourquoi davantage de données est déterminant

La relation entre l'échelle des données d'entraînement et les capacités du modèle n'est pas linéaire — mais aux niveaux frontier, des données plus nombreuses, diversifiées et de haute qualité améliorent systématiquement l'étendue des connaissances, la précision factuelle et la généralisation.

Le bond spectaculaire de V4-Pro-Base sur SimpleQA-Verified (55,2 % contre 28,3 % pour V3.2) reflète à la fois l'augmentation du volume de données et l'amélioration de leur curation — le modèle a tout simplement assimilé une part bien plus grande des connaissances mondiales.

L'optimiseur Muon

DeepSeek a remplacé l'optimiseur AdamW standard par l'optimiseur Muon pour V4.

Ce que fait Muon

Les optimiseurs classiques basés sur Adam mettent à jour les paramètres en fonction de la direction et de la magnitude du gradient. Muon ajoute une étape d'orthogonalisation : avant d'appliquer la mise à jour du gradient, il supprime les corrélations entre la mise à jour actuelle et les directions de mise à jour précédentes.

Résultat :

Convergence accélérée : chaque étape d'entraînement extrait davantage d'informations utiles
Stabilité renforcée : les mises à jour orthogonalisées sont moins susceptibles de provoquer des oscillations ou des divergences
Meilleure scalabilité : les propriétés de stabilité de Muon sont particulièrement précieuses à l'échelle de V4 (1,6 billion de paramètres)

On peut l'envisager comme une exploration plus efficace de l'espace des paramètres : Muon évite les étapes redondantes en s'assurant que chaque mise à jour du gradient va dans une direction véritablement nouvelle.

Innovations architecturales durant le pré-entraînement

Architecture d'attention hybride (CSA + HCA)

Contrairement à V3.2, qui utilisait la Multi-head Latent Attention (MLA), V4 est pré-entraîné from scratch avec l'architecture d'attention hybride. Cela signifie que les représentations internes du modèle sont façonnées par le mécanisme CSA + HCA dès le départ — et non greffées sur une architecture plus ancienne.

C'est pourquoi V4 gère plus naturellement des contextes d'un million de tokens : les patterns d'attention appris durant le pré-entraînement sont optimisés pour la structure de compression hiérarchique.

Hyper-connexions à contrainte variationnelle (mHC)

mHC remplace les connexions résiduelles standard dans l'ensemble du réseau. Pré-entraîner avec mHC dès le départ signifie que les matrices de poids du modèle se développent dans un espace structurellement contraint qui favorise une propagation stable du signal.

L'effet concret : entraîner un modèle de 1,6 billion de paramètres sur 32 billions+ de tokens devient faisable sans les instabilités catastrophiques qui affectent les tentatives de mise à l'échelle des architectures standard à cette taille.

Post-entraînement : le pipeline en deux étapes

Étape 1 : Cultivation indépendante des experts

Les experts individuels de l'architecture MoE sont entraînés indépendamment pour la spécialisation par domaine :

Supervised Fine-Tuning (SFT) :

Exemples étiquetés de haute qualité dans le domaine de chaque expert
Apprend au modèle à suivre précisément les instructions dans chaque spécialité
Couvre le codage, les mathématiques, les sciences, la langue, les connaissances générales et la sécurité

Apprentissage par renforcement avec GRPO :

Group Relative Policy Optimization récompense le modèle pour la génération de meilleures réponses relativement à un groupe d'échantillons
Appliqué indépendamment à chaque domaine/expert
Oriente le comportement des experts vers les préférences humaines sans nécessiter de modèle de récompense séparé

Étape 2 : Consolidation du modèle unifié

Après l'étape 1, les experts entraînés indépendamment sont intégrés dans un modèle unifié via la distillation on-policy :

Le modèle spécialisé de l'étape 1 génère des sorties sur des tâches variées
Le modèle final est entraîné à reproduire (distiller) ces sorties
Le mécanisme de routage apprend à activer les bons experts pour chaque tâche

Cette phase de consolidation est ce qui confère à V4-Pro sa combinaison inhabituelle de compétences approfondies dans des domaines très différents — chaque expert est véritablement spécialisé, et le routeur a appris à les utiliser de manière appropriée.

Matériel : Huawei Ascend 950PR

L'un des faits les plus significatifs concernant l'entraînement de V4 concerne le matériel :

V4 a été entraîné sur des puces Huawei Ascend 950PR — et non sur les A100 ou H100 de NVIDIA.

Cela a plusieurs implications :

Technique : Le Huawei Ascend 950PR est un accélérateur IA haute performance offrant un débit d'entraînement compétitif pour les modèles à grande échelle. Les résultats de V4 démontrent que l'entraînement d'IA frontier est atteignable sur ce matériel.

Géopolitique : Les restrictions à l'exportation américaines limitent l'accès des entreprises chinoises aux puces les plus avancées de NVIDIA. Le succès de DeepSeek dans l'entraînement de V4 sur matériel Ascend démontre que les capacités chinoises en puces IA domestiques sont plus élevées que beaucoup ne l'avaient supposé.

Stratégique : En s'appuyant sur du matériel domestique, DeepSeek (et par extension l'écosystème IA chinois) réduit sa dépendance aux chaînes d'approvisionnement contrôlées par les États-Unis pour le développement d'IA frontier.

Alignement post-entraînement

Après le pipeline RLHF en deux étapes, V4 subit un réglage d'alignement axé sur la sécurité :

Exemples SFT supplémentaires couvrant des scénarios liés à la sécurité
Directives de style constitutionnel intégrées dans le suivi des instructions
Alignement de sécurité multilingue dans toutes les langues prises en charge par V4

La portée exacte du post-entraînement de sécurité de DeepSeek n'est pas entièrement documentée dans le rapport technique public, mais la pratique industrielle standard et le bilan de DeepSeek avec ses modèles précédents suggèrent une couverture complète des cas d'utilisation nuisibles courants.

Coût d'entraînement : l'histoire de l'efficacité

DeepSeek a précédemment été salué pour avoir atteint des résultats frontier à des coûts d'entraînement déclarés bien inférieurs à ceux de ses concurrents occidentaux. Le coût d'entraînement de V4 n'a pas été officiellement divulgué, mais plusieurs facteurs suggèrent des avantages d'efficacité continus :

Optimiseur Muon : Moins d'étapes de gradient gaspillées
Stabilité mHC : Moins de calcul perdu à cause des instabilités d'entraînement
Sparsité MoE : Seulement 49 milliards de paramètres actifs par token, et non 1,6 billion
Optimisation Ascend 950PR : Conçu spécifiquement pour ce type d'entraînement

La combinaison des améliorations architecturales et d'optimiseur signifie que V4 extrait davantage de capacités par FLOP d'entraînement que les approches précédentes.

De V3.2 à V4 : ce qui a changé dans l'entraînement

Aspect de l'entraînement	V3.2	V4
Optimiseur	Variante AdamW	Muon
Connexions résiduelles	Standard	mHC
Mécanisme d'attention	MLA	Hybride (CSA + HCA)
Tokens de pré-entraînement	~18 billions	32 billions+
Pipeline post-entraînement	SFT + RL	Deux étapes : spécialisation + consolidation
Matériel	NVIDIA (équivalent H800)	Huawei Ascend 950PR

Implications pour le domaine

La méthodologie d'entraînement de V4 — en particulier l'optimiseur Muon, mHC et le post-entraînement en deux étapes — est ouvertement documentée dans le rapport technique et accessible à la communauté de recherche pour étude et réplication. La transparence de DeepSeek reflète sa culture orientée recherche.

Des plateformes comme Framia.pro qui intègrent des capacités d'IA frontier bénéficient de cette culture de partage des connaissances : à mesure que ces techniques d'entraînement sont reproduites et affinées dans l'écosystème, le plafond de qualité des modèles d'IA continue d'augmenter, améliorant toutes les applications en aval.

Conclusion

DeepSeek V4 a été construit grâce à une combinaison d'échelle de données sans précédent (32 billions+ de tokens), d'innovations architecturales (Hybrid Attention, mHC), d'améliorations de l'optimiseur (Muon) et d'un nouveau pipeline post-entraînement en deux étapes. Le résultat est un modèle atteignant des performances de niveau frontier sur une infrastructure matérielle domestique chinoise — une réalisation marquante qui établit V4 comme un jalon à la fois technique et stratégique dans le développement de l'IA.