DeepSeek V4 vs DeepSeek V3:究竟提升了多少?

DeepSeek V4 与 V3.2 全面对比:上下文窗口扩大8倍、混合注意力架构、Muon 优化器、32T 训练 token。基准测试详细分析,帮你决策是否升级。

by Framia

DeepSeek V4 vs DeepSeek V3:究竟提升了多少?

DeepSeek V3,尤其是 V3.2,被广泛认为是 2025 年最优秀的开源模型之一。因此,当 DeepSeek V4 于 2026 年 4 月正式发布时,所有人最关心的问题是:这次的飞跃有多大?答案令人印象深刻——尤其是在推理效率、长文本处理和代码能力方面,进步幅度相当显著。


模型对比

特性 DeepSeek-V3.2 DeepSeek-V4-Flash DeepSeek-V4-Pro
总参数量 671B 284B 1.6T
激活参数量 37B 13B 49B
上下文窗口 128K tokens 1M tokens 1M tokens
架构 MoE + MLA MoE + 混合注意力(CSA+HCA)+ mHC MoE + 混合注意力(CSA+HCA)+ mHC
开源协议 MIT MIT MIT
推理模式 Think / Non-think Non-think / Think High / Think Max Non-think / Think High / Think Max

最显著的区别包括:

  1. 上下文窗口:V3.2 支持 128K tokens,V4 扩展至100 万 tokens——扩大了 8 倍
  2. V4-Pro 的总参数量是 V3.2 的 2.4 倍
  3. 架构:V4 引入混合注意力机制(CSA + HCA)和 mHC,从根本上提升了长上下文处理效率
  4. 推理模式:V3.2 有两种模式,V4 增至三种,可更精细地控制思考预算

效率提升:真正的亮点

最令人印象深刻的改进并非单纯的能力提升,而是大规模推理的效率

在 100 万 tokens 上下文场景下,V4-Pro 所需资源仅为:

  • V3.2 在相同上下文长度下推理 FLOPs 的 27%
  • V3.2 所需 KV 缓存内存的 10%

这正是 DeepSeek V4 混合注意力架构(CSA + HCA)的核心创新。V4 不仅能够处理 100 万 tokens,更重要的是,其资源消耗甚至远低于 V3.2 处理 128K tokens 时的水平。


基础模型基准测试对比

基准测试 V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU(5-shot) 87.8% 88.7% 90.1%
MMLU-Redux(5-shot) 87.5% 89.4% 90.8%
MMLU-Pro(5-shot) 65.5% 68.3% 73.5%
HumanEval(Pass@1) 62.8% 69.5% 76.8%
GSM8K(8-shot) 91.1% 90.8% 92.6%
MATH(4-shot) 60.5% 57.4% 64.5%
Simple-QA verified 28.3% 30.1% 55.2%
LongBench-V2 40.2% 44.7% 51.5%
AGIEval 80.1% 82.6% 83.1%

核心要点:

  • V4-Pro-Base 在几乎所有基准测试中均超越 V3.2-Base
  • 提升最显著的领域是世界知识(SimpleQA:28.3% → 55.2%)和长上下文理解(LongBench-V2:40.2% → 51.5%)
  • V4-Flash-Base 尽管规模比 V3.2 更小,却在大多数任务上表现相当甚至更优——效率提升令人瞩目

代码能力:重大飞跃

从 V3.2 到 V4-Pro 的代码能力提升尤为突出,在 Think Max 模式下更是如此:

基准测试 V3.2(估算) V4-Pro Max
LiveCodeBench ~75–80% 93.5%
HumanEval(Base) 62.8% 76.8%
SWE-bench Verified ~75% 80.6%
Codeforces 评级 ~2500–2700 3206

Codeforces 评级从 V3.2 到 V4-Pro-Max 的飞跃代表了质的转变——V4-Pro 已跻身竞技编程的顶尖水平,这是 V3.2 无法企及的高度。


上下文窗口:从 128K 到 100 万 tokens

这一点值得单独强调。DeepSeek V3.2 的 128K tokens 上下文窗口已经相当宽裕,但对于大型代码库、长篇法律文件或多书籍研究场景,仍需借助分块和摘要策略。

V4 的 100 万 tokens 上下文彻底消除了这些变通方案。整个工作流程焕然一新:

V3.2 处理大型文档的工作流程:

  1. 将文档切分为 120K tokens 的块
  2. 对每个块进行摘要
  3. 合并摘要后进行推理
  4. 精度和上下文连贯性受损

V4 的工作流程:

  1. 将整个文档加载到单一上下文中
  2. 直接提问
  3. 获得连贯、完整的答案

全新训练创新

V4 引入了多项相对于 V3.2 的重要训练改进:

创新项目 V3.2 V4
优化器 AdamW 变体 Muon
残差连接 标准 mHC(流形约束超连接)
训练 token 数 ~18T 32T+
后训练流程 SFT + RL 两阶段:专家特化 → 在线蒸馏
注意力机制 MLA(多头潜在注意力) 混合注意力(CSA + HCA)

这些改进相互叠加:更多数据、更优的优化器、更强的残差连接,以及革命性的注意力机制,共同造就了基准测试中可见的全面提升。


什么情况下仍会使用 V3.2?

尽管 V4 大幅提升,仍有一些场景可能更适合继续使用 V3.2:

  • 已有微调模型:如果已针对特定任务对 V3.2 进行了微调,在 V4 上重新训练需要付出相当大的代价
  • 较小的硬件配置:V3.2(总计 671B / 激活 37B)在无法运行 V4-Flash(总计 284B)的系统上依然表现良好
  • 稳定性:V4 目前仍是预览版,而 V3.2 是久经考验的稳定模型

结论

DeepSeek V3.2 到 V4 的跨越,是近年 AI 发展史上单代模型中最大的能力飞跃之一。上下文窗口 8 倍扩展、根本性的架构革新以及全面的基准测试提升,使得 V4 对绝大多数使用场景而言都是毋庸置疑的升级选择。

对于当前使用 V3.2 的开发者和团队——无论是直接使用还是通过 Framia.pro 等平台——迁移到 V4-Flash 或 V4-Pro 只是一次简单的 API 替换,便能以相当甚至更低的成本,获得大幅提升的性能表现。