DeepSeek V4 训练方法:模型是如何构建的

深入解析 DeepSeek V4 的训练过程:32万亿+ token、Muon 优化器、mHC、混合注意力机制及两阶段后训练流程,基于华为昇腾 950PR 完成训练。

by Framia

DeepSeek V4 训练方法:模型是如何构建的

了解 DeepSeek V4 的训练过程,有助于我们理解它为何具备如此卓越的性能——以及哪些架构设计与数据决策造就了这款在代码生成、推理和长上下文处理上超出预期的模型。本文将全面介绍 V4 的预训练、后训练,以及使其区别于前代模型的关键创新。


预训练:规模与数据

数据集规模:超过 32 万亿 token

V4-Pro 和 V4-Flash 均在超过 32 万亿个 token 的多样化高质量数据上完成预训练。这几乎是 DeepSeek-V3 估计预训练 token 数(约 18 万亿)的两倍,代表着在训练算力和数据工程上的大规模投入。

训练语料涵盖:

  • 自然语言 — 数十种语言的网页文本、书籍、文章
  • 代码 — 所有主流编程语言的源代码
  • 数学 — 形式化证明、竞赛题目、教材
  • 科学文献 — 覆盖 STEM 各领域的研究论文
  • 多语言内容 — MMMLU 90.3% 的得分印证了其广泛的多语言覆盖能力

为何更多数据至关重要

训练数据规模与模型能力的关系并非线性——但在前沿规模上,更多高质量、多样化的数据能持续提升知识广度、事实准确性和泛化能力。

V4-Pro-Base 在 SimpleQA-Verified 上的大幅跃升(55.2% 对比 V3.2 的 28.3%)正是数据规模扩大与数据工程改进共同作用的结果——模型吸收了更广博的世界知识。


Muon 优化器

DeepSeek 在 V4 中以 Muon 优化器取代了标准的 AdamW 优化器。

Muon 的工作原理

标准 Adam 系列优化器依据梯度方向与幅度更新参数。Muon 在此基础上增加了一个正交化步骤:在应用梯度更新之前,先去除当前更新与历史更新方向之间的相关性。

由此带来:

  • 更快收敛: 每个训练步骤提取到更多有效信息
  • 更强稳定性: 正交化后的更新更不易引发震荡或发散
  • 更好的可扩展性: Muon 的稳定性在 V4 的规模(1.6 万亿参数)下尤为宝贵

可以将其理解为更高效的参数空间探索:Muon 确保每次梯度更新都指向真正的新方向,从而消除冗余步骤。


预训练中的架构创新

混合注意力架构(CSA + HCA)

V3.2 采用多头潜在注意力(MLA),而 V4 则从零开始以混合注意力架构进行预训练。这意味着模型的内部表征从一开始就由 CSA + HCA 机制塑造——而非后期嫁接到旧架构之上。

这正是 V4 能更自然地处理百万级 token 上下文的原因:预训练阶段习得的注意力模式已针对层级压缩结构进行了优化。

流形约束超连接(mHC)

mHC 取代了网络中的标准残差连接。从预训练伊始就引入 mHC,意味着模型权重矩阵在一个结构受限的空间内发展,该空间有助于稳定的信号传播。

实际效果:在 32 万亿+ token 上训练一个拥有 1.6 万亿参数的模型成为可能,且不会出现标准架构在此规模下常见的灾难性不稳定。


后训练:两阶段流程

第一阶段:独立专家培养

MoE 架构中的各专家独立训练,以实现领域专精:

监督微调(SFT):

  • 每个专家领域内的高质量标注样本
  • 训练模型在各专业方向上精准遵循指令
  • 覆盖代码、数学、科学、语言、通用知识及安全性

基于 GRPO 的强化学习:

  • 群体相对策略优化(Group Relative Policy Optimization)通过对比一组样本,奖励模型生成更优的回答
  • 独立应用于每个领域/专家
  • 无需单独的奖励模型,即可将专家行为引导向人类偏好

第二阶段:统一模型整合

第一阶段结束后,独立训练的专家通过 on-policy 蒸馏整合进统一模型:

  1. 第一阶段的专用模型在多样化任务上生成输出
  2. 最终模型通过蒸馏训练来匹配这些输出
  3. 路由机制学会为每项任务激活正确的专家

正是这一整合阶段赋予了 V4-Pro 在差异极大的领域中深度兼备的罕见能力——每位专家都经过了真正的专项训练,而路由器也学会了恰当地调用它们。


硬件:华为昇腾 950PR

V4 训练中最引人注目的事实之一,是其所用硬件:

V4 基于华为昇腾 950PR 芯片进行训练——而非 NVIDIA 的 A100 或 H100。

这一事实具有多重含义:

技术层面: 华为昇腾 950PR 是一款高性能 AI 加速器,在大规模模型训练上具有竞争力的吞吐量。V4 的成果证明,前沿 AI 训练在这一硬件上完全可行。

地缘政治层面: 美国出口管制限制了中国企业获取 NVIDIA 顶级芯片的渠道。DeepSeek 在昇腾硬件上成功训练 V4,表明中国国内 AI 芯片的实力远超许多人的预估。

战略层面: 依托国产硬件,DeepSeek(进而是中国 AI 生态系统)在前沿 AI 开发中降低了对美国管控供应链的依赖。


后训练对齐

完成两阶段 RLHF 流程后,V4 还要经历以安全为导向的对齐调优:

  • 涵盖安全相关场景的额外 SFT 样本
  • 内嵌于指令跟随中的宪法式准则
  • 覆盖 V4 所支持语言的多语言安全对齐

DeepSeek 安全后训练的确切范围在公开技术报告中未有完整披露,但行业惯例和 DeepSeek 在前代模型上的一贯表现表明,其对常见有害用例的覆盖是全面的。


训练成本:效率优势

DeepSeek 此前已凭借远低于西方同行的报告训练成本实现前沿水平而备受赞誉。V4 的训练成本尚未官方公布,但多项因素表明其效率优势依然显著:

  1. Muon 优化器: 减少无效梯度步骤
  2. mHC 稳定性: 降低训练不稳定性造成的算力损耗
  3. MoE 稀疏性: 每个 token 仅激活 490 亿个参数,而非全部 1.6 万亿
  4. 昇腾 950PR 优化: 专为此类训练任务而设计

架构与优化器改进的协同效应,使 V4 每训练 FLOP 所提取的能力超过此前的方案。


从 V3.2 到 V4:训练上的变化

训练维度 V3.2 V4
优化器 AdamW 变体 Muon
残差连接 标准 mHC
注意力机制 MLA 混合(CSA + HCA)
预训练 token 数 约 18 万亿 32 万亿+
后训练流程 SFT + RL 两阶段:专项培养 + 统一整合
硬件 NVIDIA(H800 同级) 华为昇腾 950PR

对行业的启示

V4 的训练方法论——尤其是 Muon 优化器、mHC 和两阶段后训练——已在技术报告中公开记录,供研究社区学习和复现。DeepSeek 的这种透明度折射出其研究优先的文化理念。

Framia.pro 等整合前沿 AI 能力的平台正是这一知识共享文化的受益者:随着这些训练技术在整个生态系统中被复制和完善,AI 模型的能力上限将持续提升,惠及每一个下游应用。


结语

DeepSeek V4 的诞生,是前所未有的数据规模(32 万亿+ token)、架构创新(混合注意力、mHC)、优化器改进(Muon)与全新两阶段后训练流程共同作用的结果。最终产出的模型在中国国产硬件栈上实现了前沿级别的性能——这一里程碑式的成就,使 V4 在 AI 发展史上同时具备技术与战略层面的重要意义。