DeepSeek V4 参数详解:总参数 1.6 万亿,激活参数 49B
DeepSeek 宣布 V4-Pro 拥有 1.6 万亿参数时,许多人为之震惊。这一规模超越了目前绝大多数开放权重模型。但关键的细微之处在于:在这 1.6 万亿参数中,推理时每个 token 仅激活 490 亿(49B)个参数。
正是这一区别,使得 DeepSeek V4 既强大,又具备实际可部署性。
DeepSeek V4 参数规模一览
| 模型 | 总参数量 | 激活参数量 | 下载大小 |
|---|---|---|---|
| DeepSeek-V4-Pro | 1.6 万亿 | 490 亿 | 约 865 GB |
| DeepSeek-V4-Flash | 2,840 亿 | 130 亿 | 约 160 GB |
| DeepSeek-V3.2(上一代) | 6,710 亿 | 370 亿 | 约 380 GB |
作为参照,V4-Pro 的总规模超过 V3.2 的两倍,而 V4-Flash 约为 V3.2 大小的 42%——这使得 Flash 成为一个出色的轻量级选择。
"1.6 万亿参数"究竟意味着什么?
参数是神经网络中存储的学习数值权重。在训练过程中,这些权重不断调整,以最小化对海量数据集的预测误差(DeepSeek V4 的训练数据超过 32 万亿 token)。在推理阶段,这些权重决定了模型对任意输入的响应方式。
参数越多,模型通常能够:
- 存储更丰富的事实性知识
- 捕捉更细腻的语言规律
- 在罕见或复杂任务上具备更强的泛化能力
凭借 1.6 万亿参数,V4-Pro 是有史以来规模最大的开放权重模型之一,具备极其广博的知识面和深度推理能力。
混合专家(MoE)架构:为何只有 49B 参数被激活
这里是最关键的部分。DeepSeek V4 采用的是**混合专家(Mixture of Experts,MoE)**架构——而非每个 token 都激活全部参数的密集 Transformer。
在 MoE 模型中:
- 网络包含众多专门化的"专家"子网络
- 对于每个 token,路由器仅选择一小部分专家进行激活
- 只有被选中的专家参与输出的生成
对于 DeepSeek-V4-Pro,路由器在 1.6 万亿总参数中每个 token 激活 490 亿参数——约占整个网络的 3%。这意味着你以 490 亿的计算预算,获取了 1.6 万亿模型的知识。
这正是 MoE 模型能够在不成比例增加计算量的前提下,实现远超同等规模密集模型性能的原因。
精度:FP4 + FP8 混合精度
DeepSeek V4 的权重并非以完整的 32 位精度存储。具体来说:
- MoE 专家参数采用 FP4 精度(4 位浮点数)
- 大多数其他参数采用 FP8 精度(8 位浮点数)
这种混合精度方案在几乎不影响模型质量的前提下,大幅降低了内存占用,使得在现实硬件上运行成为可能(详见本地部署指南)。
基础模型(V4-Pro-Base 和 V4-Flash-Base)全程采用 FP8 混合精度。
V4-Pro 参数与竞品对比
| 模型 | 参数(总) | 参数(激活) | 开放权重? |
|---|---|---|---|
| DeepSeek-V4-Pro | 1.6 万亿 | 490 亿 | ✅ 是(MIT 协议) |
| DeepSeek-V3.2 | 6,710 亿 | 370 亿 | ✅ 是 |
| GPT-5.5 | 未披露 | 未披露 | ❌ 否 |
| Claude Opus 4.7 | 未披露 | 未披露 | ❌ 否 |
| Gemini-3.1-Pro | 未披露 | 未披露 | ❌ 否 |
核心优势:DeepSeek V4-Pro 是目前可用的规模最大的开放权重模型,与封闭的竞品不同,你可以自行检查、微调和部署它。
DeepSeek V4-Flash 的 2,840 亿参数意味着什么
V4-Flash(总参数 2,840 亿 / 激活参数 130 亿)同样不容小觑。每个 token 激活 130 亿参数,其计算成本与 Llama 3.3 70B 等中型密集模型相当——但它拥有 2,840 亿总参数体系带来的知识积累和架构改进。
实际表现:
- Flash 在简单和中等复杂度任务上接近 Pro 的性能
- 当给予更大的"思考预算"(Think Max 模式)时,Flash 的推理得分可媲美早期前沿模型
- Flash 所需 GPU 显存远少于 Pro,通过 API 调用的成本约便宜 10 倍
对于在 Framia.pro 等平台上构建高并发应用的开发者而言,Flash 的参数效率使其成为高性价比、高吞吐量创意 AI 工作负载的理想选择。
参数规模对你的使用场景有何影响
实用性结论如下:
- 选择 V4-Pro:当你需要最强知识深度、顶级代码能力、复杂长文档推理,或需要与前沿模型进行基准测试时
- 选择 V4-Flash:当你需要速度、成本效率,或正在运行预算敏感的高并发 API 调用时
两款模型均受益于相同的架构创新——混合注意力机制(CSA + HCA)、mHC 以及 Muon 优化器——唯一有意义的差别在于参数规模和由此带来的性能上限。
结语
DeepSeek V4-Pro 的 1.6 万亿总参数使其成为目前最强大的开放权重大语言模型——但真正的魔法在于 MoE 架构让推理成本保持合理。每个 token 仅激活 490 亿参数,意味着你以极小的计算代价,获取了万亿级别的知识。
理解这一区别,对于任何在生产环境中部署 DeepSeek V4 的人都至关重要——无论是本地运行还是通过 API 访问。