DeepSeek V4 参数详解:总参数 1.6 万亿,激活参数 49B

DeepSeek V4-Pro 拥有 1.6 万亿总参数,但每次推理仅激活 49B 参数。了解这些数字背后的含义,以及 MoE 架构如何实现高效低成本推理。

by Framia

DeepSeek V4 参数详解:总参数 1.6 万亿,激活参数 49B

DeepSeek 宣布 V4-Pro 拥有 1.6 万亿参数时,许多人为之震惊。这一规模超越了目前绝大多数开放权重模型。但关键的细微之处在于:在这 1.6 万亿参数中,推理时每个 token 仅激活 490 亿(49B)个参数

正是这一区别,使得 DeepSeek V4 既强大,又具备实际可部署性。


DeepSeek V4 参数规模一览

模型 总参数量 激活参数量 下载大小
DeepSeek-V4-Pro 1.6 万亿 490 亿 约 865 GB
DeepSeek-V4-Flash 2,840 亿 130 亿 约 160 GB
DeepSeek-V3.2(上一代) 6,710 亿 370 亿 约 380 GB

作为参照,V4-Pro 的总规模超过 V3.2 的两倍,而 V4-Flash 约为 V3.2 大小的 42%——这使得 Flash 成为一个出色的轻量级选择。


"1.6 万亿参数"究竟意味着什么?

参数是神经网络中存储的学习数值权重。在训练过程中,这些权重不断调整,以最小化对海量数据集的预测误差(DeepSeek V4 的训练数据超过 32 万亿 token)。在推理阶段,这些权重决定了模型对任意输入的响应方式。

参数越多,模型通常能够:

  • 存储更丰富的事实性知识
  • 捕捉更细腻的语言规律
  • 在罕见或复杂任务上具备更强的泛化能力

凭借 1.6 万亿参数,V4-Pro 是有史以来规模最大的开放权重模型之一,具备极其广博的知识面和深度推理能力。


混合专家(MoE)架构:为何只有 49B 参数被激活

这里是最关键的部分。DeepSeek V4 采用的是**混合专家(Mixture of Experts,MoE)**架构——而非每个 token 都激活全部参数的密集 Transformer。

在 MoE 模型中:

  • 网络包含众多专门化的"专家"子网络
  • 对于每个 token,路由器仅选择一小部分专家进行激活
  • 只有被选中的专家参与输出的生成

对于 DeepSeek-V4-Pro,路由器在 1.6 万亿总参数中每个 token 激活 490 亿参数——约占整个网络的 3%。这意味着你以 490 亿的计算预算,获取了 1.6 万亿模型的知识

这正是 MoE 模型能够在不成比例增加计算量的前提下,实现远超同等规模密集模型性能的原因。


精度:FP4 + FP8 混合精度

DeepSeek V4 的权重并非以完整的 32 位精度存储。具体来说:

  • MoE 专家参数采用 FP4 精度(4 位浮点数)
  • 大多数其他参数采用 FP8 精度(8 位浮点数)

这种混合精度方案在几乎不影响模型质量的前提下,大幅降低了内存占用,使得在现实硬件上运行成为可能(详见本地部署指南)。

基础模型(V4-Pro-Base 和 V4-Flash-Base)全程采用 FP8 混合精度。


V4-Pro 参数与竞品对比

模型 参数(总) 参数(激活) 开放权重?
DeepSeek-V4-Pro 1.6 万亿 490 亿 ✅ 是(MIT 协议)
DeepSeek-V3.2 6,710 亿 370 亿 ✅ 是
GPT-5.5 未披露 未披露 ❌ 否
Claude Opus 4.7 未披露 未披露 ❌ 否
Gemini-3.1-Pro 未披露 未披露 ❌ 否

核心优势:DeepSeek V4-Pro 是目前可用的规模最大的开放权重模型,与封闭的竞品不同,你可以自行检查、微调和部署它。


DeepSeek V4-Flash 的 2,840 亿参数意味着什么

V4-Flash(总参数 2,840 亿 / 激活参数 130 亿)同样不容小觑。每个 token 激活 130 亿参数,其计算成本与 Llama 3.3 70B 等中型密集模型相当——但它拥有 2,840 亿总参数体系带来的知识积累和架构改进。

实际表现:

  • Flash 在简单和中等复杂度任务上接近 Pro 的性能
  • 当给予更大的"思考预算"(Think Max 模式)时,Flash 的推理得分可媲美早期前沿模型
  • Flash 所需 GPU 显存远少于 Pro,通过 API 调用的成本约便宜 10 倍

对于在 Framia.pro 等平台上构建高并发应用的开发者而言,Flash 的参数效率使其成为高性价比、高吞吐量创意 AI 工作负载的理想选择。


参数规模对你的使用场景有何影响

实用性结论如下:

  • 选择 V4-Pro:当你需要最强知识深度、顶级代码能力、复杂长文档推理,或需要与前沿模型进行基准测试时
  • 选择 V4-Flash:当你需要速度、成本效率,或正在运行预算敏感的高并发 API 调用时

两款模型均受益于相同的架构创新——混合注意力机制(CSA + HCA)、mHC 以及 Muon 优化器——唯一有意义的差别在于参数规模和由此带来的性能上限。


结语

DeepSeek V4-Pro 的 1.6 万亿总参数使其成为目前最强大的开放权重大语言模型——但真正的魔法在于 MoE 架构让推理成本保持合理。每个 token 仅激活 490 亿参数,意味着你以极小的计算代价,获取了万亿级别的知识。

理解这一区别,对于任何在生产环境中部署 DeepSeek V4 的人都至关重要——无论是本地运行还是通过 API 访问。