Entraînement de DeepSeek V4 : comment le modèle a été construit
Comprendre comment DeepSeek V4 a été entraîné permet de saisir pourquoi il performe aussi bien — et quelles décisions architecturales et de données ont conduit à un modèle qui dépasse les attentes en matière de codage, de raisonnement et de traitement de contextes longs. Ce guide couvre le pré-entraînement, le post-entraînement et les innovations clés qui distinguent V4 de ses prédécesseurs.
Pré-entraînement : échelle et données
Taille du jeu de données : plus de 32 billions de tokens
V4-Pro et V4-Flash ont tous deux été pré-entraînés sur plus de 32 billions de tokens de données variées et de haute qualité. C'est près du double des 18 billions de tokens estimés pour DeepSeek-V3, ce qui représente un investissement considérable en calcul d'entraînement et en curation des données.
Le corpus d'entraînement couvre :
- Langue naturelle — textes web, livres, articles en dizaines de langues
- Code — code source dans tous les principaux langages de programmation
- Mathématiques — preuves formelles, problèmes de concours, manuels scolaires
- Littérature scientifique — articles de recherche dans les disciplines STEM
- Contenu multilingue — couverture multilingue étendue attestée par le score MMMLU de 90,3 %
Pourquoi davantage de données est déterminant
La relation entre l'échelle des données d'entraînement et les capacités du modèle n'est pas linéaire — mais aux niveaux frontier, des données plus nombreuses, diversifiées et de haute qualité améliorent systématiquement l'étendue des connaissances, la précision factuelle et la généralisation.
Le bond spectaculaire de V4-Pro-Base sur SimpleQA-Verified (55,2 % contre 28,3 % pour V3.2) reflète à la fois l'augmentation du volume de données et l'amélioration de leur curation — le modèle a tout simplement assimilé une part bien plus grande des connaissances mondiales.
L'optimiseur Muon
DeepSeek a remplacé l'optimiseur AdamW standard par l'optimiseur Muon pour V4.
Ce que fait Muon
Les optimiseurs classiques basés sur Adam mettent à jour les paramètres en fonction de la direction et de la magnitude du gradient. Muon ajoute une étape d'orthogonalisation : avant d'appliquer la mise à jour du gradient, il supprime les corrélations entre la mise à jour actuelle et les directions de mise à jour précédentes.
Résultat :
- Convergence accélérée : chaque étape d'entraînement extrait davantage d'informations utiles
- Stabilité renforcée : les mises à jour orthogonalisées sont moins susceptibles de provoquer des oscillations ou des divergences
- Meilleure scalabilité : les propriétés de stabilité de Muon sont particulièrement précieuses à l'échelle de V4 (1,6 billion de paramètres)
On peut l'envisager comme une exploration plus efficace de l'espace des paramètres : Muon évite les étapes redondantes en s'assurant que chaque mise à jour du gradient va dans une direction véritablement nouvelle.
Innovations architecturales durant le pré-entraînement
Architecture d'attention hybride (CSA + HCA)
Contrairement à V3.2, qui utilisait la Multi-head Latent Attention (MLA), V4 est pré-entraîné from scratch avec l'architecture d'attention hybride. Cela signifie que les représentations internes du modèle sont façonnées par le mécanisme CSA + HCA dès le départ — et non greffées sur une architecture plus ancienne.
C'est pourquoi V4 gère plus naturellement des contextes d'un million de tokens : les patterns d'attention appris durant le pré-entraînement sont optimisés pour la structure de compression hiérarchique.
Hyper-connexions à contrainte variationnelle (mHC)
mHC remplace les connexions résiduelles standard dans l'ensemble du réseau. Pré-entraîner avec mHC dès le départ signifie que les matrices de poids du modèle se développent dans un espace structurellement contraint qui favorise une propagation stable du signal.
L'effet concret : entraîner un modèle de 1,6 billion de paramètres sur 32 billions+ de tokens devient faisable sans les instabilités catastrophiques qui affectent les tentatives de mise à l'échelle des architectures standard à cette taille.
Post-entraînement : le pipeline en deux étapes
Étape 1 : Cultivation indépendante des experts
Les experts individuels de l'architecture MoE sont entraînés indépendamment pour la spécialisation par domaine :
Supervised Fine-Tuning (SFT) :
- Exemples étiquetés de haute qualité dans le domaine de chaque expert
- Apprend au modèle à suivre précisément les instructions dans chaque spécialité
- Couvre le codage, les mathématiques, les sciences, la langue, les connaissances générales et la sécurité
Apprentissage par renforcement avec GRPO :
- Group Relative Policy Optimization récompense le modèle pour la génération de meilleures réponses relativement à un groupe d'échantillons
- Appliqué indépendamment à chaque domaine/expert
- Oriente le comportement des experts vers les préférences humaines sans nécessiter de modèle de récompense séparé
Étape 2 : Consolidation du modèle unifié
Après l'étape 1, les experts entraînés indépendamment sont intégrés dans un modèle unifié via la distillation on-policy :
- Le modèle spécialisé de l'étape 1 génère des sorties sur des tâches variées
- Le modèle final est entraîné à reproduire (distiller) ces sorties
- Le mécanisme de routage apprend à activer les bons experts pour chaque tâche
Cette phase de consolidation est ce qui confère à V4-Pro sa combinaison inhabituelle de compétences approfondies dans des domaines très différents — chaque expert est véritablement spécialisé, et le routeur a appris à les utiliser de manière appropriée.
Matériel : Huawei Ascend 950PR
L'un des faits les plus significatifs concernant l'entraînement de V4 concerne le matériel :
V4 a été entraîné sur des puces Huawei Ascend 950PR — et non sur les A100 ou H100 de NVIDIA.
Cela a plusieurs implications :
Technique : Le Huawei Ascend 950PR est un accélérateur IA haute performance offrant un débit d'entraînement compétitif pour les modèles à grande échelle. Les résultats de V4 démontrent que l'entraînement d'IA frontier est atteignable sur ce matériel.
Géopolitique : Les restrictions à l'exportation américaines limitent l'accès des entreprises chinoises aux puces les plus avancées de NVIDIA. Le succès de DeepSeek dans l'entraînement de V4 sur matériel Ascend démontre que les capacités chinoises en puces IA domestiques sont plus élevées que beaucoup ne l'avaient supposé.
Stratégique : En s'appuyant sur du matériel domestique, DeepSeek (et par extension l'écosystème IA chinois) réduit sa dépendance aux chaînes d'approvisionnement contrôlées par les États-Unis pour le développement d'IA frontier.
Alignement post-entraînement
Après le pipeline RLHF en deux étapes, V4 subit un réglage d'alignement axé sur la sécurité :
- Exemples SFT supplémentaires couvrant des scénarios liés à la sécurité
- Directives de style constitutionnel intégrées dans le suivi des instructions
- Alignement de sécurité multilingue dans toutes les langues prises en charge par V4
La portée exacte du post-entraînement de sécurité de DeepSeek n'est pas entièrement documentée dans le rapport technique public, mais la pratique industrielle standard et le bilan de DeepSeek avec ses modèles précédents suggèrent une couverture complète des cas d'utilisation nuisibles courants.
Coût d'entraînement : l'histoire de l'efficacité
DeepSeek a précédemment été salué pour avoir atteint des résultats frontier à des coûts d'entraînement déclarés bien inférieurs à ceux de ses concurrents occidentaux. Le coût d'entraînement de V4 n'a pas été officiellement divulgué, mais plusieurs facteurs suggèrent des avantages d'efficacité continus :
- Optimiseur Muon : Moins d'étapes de gradient gaspillées
- Stabilité mHC : Moins de calcul perdu à cause des instabilités d'entraînement
- Sparsité MoE : Seulement 49 milliards de paramètres actifs par token, et non 1,6 billion
- Optimisation Ascend 950PR : Conçu spécifiquement pour ce type d'entraînement
La combinaison des améliorations architecturales et d'optimiseur signifie que V4 extrait davantage de capacités par FLOP d'entraînement que les approches précédentes.
De V3.2 à V4 : ce qui a changé dans l'entraînement
| Aspect de l'entraînement | V3.2 | V4 |
|---|---|---|
| Optimiseur | Variante AdamW | Muon |
| Connexions résiduelles | Standard | mHC |
| Mécanisme d'attention | MLA | Hybride (CSA + HCA) |
| Tokens de pré-entraînement | ~18 billions | 32 billions+ |
| Pipeline post-entraînement | SFT + RL | Deux étapes : spécialisation + consolidation |
| Matériel | NVIDIA (équivalent H800) | Huawei Ascend 950PR |
Implications pour le domaine
La méthodologie d'entraînement de V4 — en particulier l'optimiseur Muon, mHC et le post-entraînement en deux étapes — est ouvertement documentée dans le rapport technique et accessible à la communauté de recherche pour étude et réplication. La transparence de DeepSeek reflète sa culture orientée recherche.
Des plateformes comme Framia.pro qui intègrent des capacités d'IA frontier bénéficient de cette culture de partage des connaissances : à mesure que ces techniques d'entraînement sont reproduites et affinées dans l'écosystème, le plafond de qualité des modèles d'IA continue d'augmenter, améliorant toutes les applications en aval.
Conclusion
DeepSeek V4 a été construit grâce à une combinaison d'échelle de données sans précédent (32 billions+ de tokens), d'innovations architecturales (Hybrid Attention, mHC), d'améliorations de l'optimiseur (Muon) et d'un nouveau pipeline post-entraînement en deux étapes. Le résultat est un modèle atteignant des performances de niveau frontier sur une infrastructure matérielle domestique chinoise — une réalisation marquante qui établit V4 comme un jalon à la fois technique et stratégique dans le développement de l'IA.