DeepSeek V4 vs DeepSeek V3:究竟提升了多少?
DeepSeek V3,尤其是 V3.2,被广泛认为是 2025 年最优秀的开源模型之一。因此,当 DeepSeek V4 于 2026 年 4 月正式发布时,所有人最关心的问题是:这次的飞跃有多大?答案令人印象深刻——尤其是在推理效率、长文本处理和代码能力方面,进步幅度相当显著。
模型对比
| 特性 | DeepSeek-V3.2 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|---|
| 总参数量 | 671B | 284B | 1.6T |
| 激活参数量 | 37B | 13B | 49B |
| 上下文窗口 | 128K tokens | 1M tokens | 1M tokens |
| 架构 | MoE + MLA | MoE + 混合注意力(CSA+HCA)+ mHC | MoE + 混合注意力(CSA+HCA)+ mHC |
| 开源协议 | MIT | MIT | MIT |
| 推理模式 | Think / Non-think | Non-think / Think High / Think Max | Non-think / Think High / Think Max |
最显著的区别包括:
- 上下文窗口:V3.2 支持 128K tokens,V4 扩展至100 万 tokens——扩大了 8 倍
- V4-Pro 的总参数量是 V3.2 的 2.4 倍
- 架构:V4 引入混合注意力机制(CSA + HCA)和 mHC,从根本上提升了长上下文处理效率
- 推理模式:V3.2 有两种模式,V4 增至三种,可更精细地控制思考预算
效率提升:真正的亮点
最令人印象深刻的改进并非单纯的能力提升,而是大规模推理的效率。
在 100 万 tokens 上下文场景下,V4-Pro 所需资源仅为:
- V3.2 在相同上下文长度下推理 FLOPs 的 27%
- V3.2 所需 KV 缓存内存的 10%
这正是 DeepSeek V4 混合注意力架构(CSA + HCA)的核心创新。V4 不仅能够处理 100 万 tokens,更重要的是,其资源消耗甚至远低于 V3.2 处理 128K tokens 时的水平。
基础模型基准测试对比
| 基准测试 | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU(5-shot) | 87.8% | 88.7% | 90.1% |
| MMLU-Redux(5-shot) | 87.5% | 89.4% | 90.8% |
| MMLU-Pro(5-shot) | 65.5% | 68.3% | 73.5% |
| HumanEval(Pass@1) | 62.8% | 69.5% | 76.8% |
| GSM8K(8-shot) | 91.1% | 90.8% | 92.6% |
| MATH(4-shot) | 60.5% | 57.4% | 64.5% |
| Simple-QA verified | 28.3% | 30.1% | 55.2% |
| LongBench-V2 | 40.2% | 44.7% | 51.5% |
| AGIEval | 80.1% | 82.6% | 83.1% |
核心要点:
- V4-Pro-Base 在几乎所有基准测试中均超越 V3.2-Base
- 提升最显著的领域是世界知识(SimpleQA:28.3% → 55.2%)和长上下文理解(LongBench-V2:40.2% → 51.5%)
- V4-Flash-Base 尽管规模比 V3.2 更小,却在大多数任务上表现相当甚至更优——效率提升令人瞩目
代码能力:重大飞跃
从 V3.2 到 V4-Pro 的代码能力提升尤为突出,在 Think Max 模式下更是如此:
| 基准测试 | V3.2(估算) | V4-Pro Max |
|---|---|---|
| LiveCodeBench | ~75–80% | 93.5% |
| HumanEval(Base) | 62.8% | 76.8% |
| SWE-bench Verified | ~75% | 80.6% |
| Codeforces 评级 | ~2500–2700 | 3206 |
Codeforces 评级从 V3.2 到 V4-Pro-Max 的飞跃代表了质的转变——V4-Pro 已跻身竞技编程的顶尖水平,这是 V3.2 无法企及的高度。
上下文窗口:从 128K 到 100 万 tokens
这一点值得单独强调。DeepSeek V3.2 的 128K tokens 上下文窗口已经相当宽裕,但对于大型代码库、长篇法律文件或多书籍研究场景,仍需借助分块和摘要策略。
V4 的 100 万 tokens 上下文彻底消除了这些变通方案。整个工作流程焕然一新:
V3.2 处理大型文档的工作流程:
- 将文档切分为 120K tokens 的块
- 对每个块进行摘要
- 合并摘要后进行推理
- 精度和上下文连贯性受损
V4 的工作流程:
- 将整个文档加载到单一上下文中
- 直接提问
- 获得连贯、完整的答案
全新训练创新
V4 引入了多项相对于 V3.2 的重要训练改进:
| 创新项目 | V3.2 | V4 |
|---|---|---|
| 优化器 | AdamW 变体 | Muon |
| 残差连接 | 标准 | mHC(流形约束超连接) |
| 训练 token 数 | ~18T | 32T+ |
| 后训练流程 | SFT + RL | 两阶段:专家特化 → 在线蒸馏 |
| 注意力机制 | MLA(多头潜在注意力) | 混合注意力(CSA + HCA) |
这些改进相互叠加:更多数据、更优的优化器、更强的残差连接,以及革命性的注意力机制,共同造就了基准测试中可见的全面提升。
什么情况下仍会使用 V3.2?
尽管 V4 大幅提升,仍有一些场景可能更适合继续使用 V3.2:
- 已有微调模型:如果已针对特定任务对 V3.2 进行了微调,在 V4 上重新训练需要付出相当大的代价
- 较小的硬件配置:V3.2(总计 671B / 激活 37B)在无法运行 V4-Flash(总计 284B)的系统上依然表现良好
- 稳定性:V4 目前仍是预览版,而 V3.2 是久经考验的稳定模型
结论
DeepSeek V3.2 到 V4 的跨越,是近年 AI 发展史上单代模型中最大的能力飞跃之一。上下文窗口 8 倍扩展、根本性的架构革新以及全面的基准测试提升,使得 V4 对绝大多数使用场景而言都是毋庸置疑的升级选择。
对于当前使用 V3.2 的开发者和团队——无论是直接使用还是通过 Framia.pro 等平台——迁移到 V4-Flash 或 V4-Pro 只是一次简单的 API 替换,便能以相当甚至更低的成本,获得大幅提升的性能表现。