Architecture de DeepSeek V4 : attention hybride, mHC et MoE expliqués
DeepSeek V4 n'est pas simplement une version plus grande de V3. Il introduit un ensemble de changements architecturaux fondamentaux qui améliorent considérablement l'efficacité, en particulier pour les charges de travail à contexte long. Si vous voulez comprendre pourquoi DeepSeek V4 peut traiter 1 million de tokens par défaut — et ce avec beaucoup moins de calcul que n'importe quel modèle précédent — ce guide vous présente chaque innovation majeure en détail.
Vue d'ensemble : quatre piliers architecturaux fondamentaux
- Mixture of Experts (MoE) — activation creuse pour l'efficacité de calcul
- Architecture d'attention hybride (CSA + HCA) — la clé de l'efficacité à 1 million de tokens
- Hyper-connexions à contrainte de variété (mHC) — propagation stable du signal
- Optimiseur Muon — entraînement plus rapide et plus stable
Examinons chacun d'eux.
1. Mixture of Experts (MoE)
DeepSeek V4 utilise une architecture MoE pour les deux variantes Pro (1,6T / 49B actifs) et Flash (284B / 13B actifs). Le MoE fonctionne en divisant les couches feed-forward du modèle en de nombreux « experts » spécialisés, avec un routeur entraînable sélectionnant les experts les plus pertinents pour chaque token.
Pourquoi c'est important : Vous bénéficiez de la capacité de connaissance d'un modèle avec des centaines de milliards ou des billions de paramètres, tout en n'activant qu'une petite fraction d'entre eux par token. Le coût d'inférence évolue avec les paramètres actifs, et non les paramètres totaux — ce qui rend le MoE bien plus efficace en calcul que les modèles denses équivalents.
Le pipeline de post-entraînement de DeepSeek ajoute une approche distinctive en deux étapes :
- Étape 1 : Spécialisation indépendante des experts via SFT et RL avec GRPO
- Étape 2 : Consolidation du modèle unifié via distillation on-policy — fusionnant toute l'expertise spécialisée en un seul modèle cohérent
2. Architecture d'attention hybride : CSA + HCA
Il s'agit de l'innovation la plus importante de DeepSeek V4, et la raison pour laquelle 1 million de tokens est désormais la longueur de contexte par défaut.
Le problème de l'attention standard sur de longs contextes
L'attention transformer standard (comme dans les anciens modèles) évolue quadratiquement avec la longueur de séquence. Pour 1 million de tokens, cela nécessiterait une quantité astronomique de mémoire (cache KV) et de calcul — rendant la chose impraticable.
La solution de DeepSeek : deux mécanismes d'attention complémentaires
Compressed Sparse Attention (CSA)
- Applique une compression par token, réduisant le nombre de paires clé-valeur à stocker et à récupérer
- Permet au modèle d'accéder efficacement à un contexte distant sans stocker la séquence complète en pleine résolution
Heavily Compressed Attention (HCA)
- Va plus loin, appliquant une compression agressive aux tokens très éloignés de la position actuelle
- Dit essentiellement au modèle : « pour les tokens lointains dans l'historique, stocke un résumé hautement compressé — n'essaie pas de te souvenir de chaque détail »
Ensemble, CSA et HCA créent un système de mémoire à plusieurs niveaux : les tokens récents reçoivent une attention complète, les tokens légèrement éloignés reçoivent une attention compressée, et les tokens très éloignés reçoivent une attention fortement compressée. Cela reflète le fonctionnement réel de la mémoire de travail humaine.
Le résultat : des gains d'efficacité spectaculaires
Dans un scénario de contexte à 1 million de tokens :
- V4-Pro ne nécessite que 27 % des FLOPs d'inférence par token par rapport à V3.2
- V4-Pro ne nécessite que 10 % de la mémoire du cache KV par rapport à V3.2
C'est environ 3,7× moins de calcul et 10× moins de mémoire — permettant un contexte de 1 million de tokens sur du matériel qui aurait été impossible avec V3.2.
3. Hyper-connexions à contrainte de variété (mHC)
À mesure que les modèles s'étendent à des billions de paramètres sur des centaines de couches, un mode de défaillance courant est la dégradation du gradient — les signaux devenant trop faibles ou trop bruités pour se propager efficacement à travers les réseaux profonds.
La solution de DeepSeek est mHC (Manifold-Constrained Hyper-Connections), qui améliore les connexions résiduelles conventionnelles en contraignant les mises à jour de poids à se trouver sur une variété riemannienne. En termes simples, mHC :
- Renforce le chemin résiduel entre les couches transformer
- Stabilise la façon dont les signaux circulent à travers la profondeur du réseau
- Préserve l'expressivité du modèle tout en évitant l'explosion ou la disparition du gradient
L'effet pratique : le V4-Pro à 1,6T de paramètres peut être entraîné de manière fiable à une échelle qui déstabiliserait la plupart des autres architectures.
4. Optimiseur Muon
DeepSeek V4 remplace l'optimiseur standard AdamW par l'optimiseur Muon (abréviation de Momentum + Orthogonalisation). Muon :
- Applique une étape d'orthogonalisation aux mises à jour de gradient, empêchant les mises à jour redondantes dans des directions corrélées
- Atteint une convergence plus rapide — le modèle apprend davantage à chaque étape d'entraînement
- Offre une plus grande stabilité d'entraînement — particulièrement important à l'échelle de pré-entraînement de 32T+ tokens
V4-Pro et V4-Flash ont tous deux été pré-entraînés sur plus de 32 billions de tokens diversifiés et de haute qualité avec Muon, donnant aux modèles une couverture exceptionnelle des connaissances mondiales, du code, des mathématiques et des textes multilingues.
Trois modes de raisonnement : l'architecture rencontre l'inférence
L'architecture permet un système d'inférence flexible à trois modes :
| Mode | Comportement | Cas d'usage |
|---|---|---|
| Non-think | Pas de chaîne de pensée explicite | Requêtes rapides, tâches simples |
| Think High | Chaîne de pensée contrôlée | Raisonnement complexe, planification |
| Think Max | Raisonnement étendu et exhaustif | Mathématiques de compétition, codage avancé |
Think Max nécessite au moins une fenêtre de contexte de 384K tokens pour bien fonctionner (le modèle a besoin d'espace pour sa trace de raisonnement complète). Cela est disponible sans difficulté dans la limite de 1M de tokens de V4.
Comparaison avec l'architecture de DeepSeek V3.2
DeepSeek-V3.2 utilisait 671B paramètres totaux / 37B actifs et un schéma d'attention différent. En passant à V4 :
- Les paramètres totaux ont presque triplé (671B → 1,6T pour Pro)
- Les paramètres actifs sont passés de 37B → 49B
- Le cache KV a été réduit de 10× pour le contexte de 1M tokens
- Le calcul par token a été réduit d'environ 73 %
- Nouvel optimiseur (Muon vs. variante AdamW)
- Nouveau pipeline d'entraînement (consolidation d'experts en deux étapes)
Pour les plateformes comme Framia.pro qui alimentent des agents IA à grande échelle, de telles améliorations de l'efficacité architecturale se traduisent directement par des coûts réduits, des réponses plus rapides et des workflows créatifs plus performants.
Conclusion
L'architecture de DeepSeek V4 est une combinaison soigneusement conçue de sparsité MoE, de compression d'attention hybride, de connexions résiduelles à contrainte de variété et d'un optimiseur avancé. Ensemble, ces innovations rendent le contexte de 1 million de tokens non seulement théoriquement possible, mais pratiquement par défaut — à un coût qui le rend accessible aux développeurs, chercheurs et entreprises du monde entier.