DeepSeek V4 基准测试:LiveCodeBench、MMLU、SWE-bench 等全面评分解析
DeepSeek V4 于 2026 年 4 月 24 日正式发布,带来了令人瞩目的声明:最佳可用开源模型、顶级 Codeforces 评分,以及在推理、知识和智能体任务方面媲美前沿模型的性能。以下是按模型变体和推理模式划分的所有主要基准测试结果完整分析。
了解 DeepSeek V4 的基准测试模式
DeepSeek V4 以六种配置报告结果:
| 配置 | 说明 |
|---|---|
| V4-Flash Non-Think | 快速,无思维链 |
| V4-Flash Think High | 中等扩展推理 |
| V4-Flash Think Max | 最大推理力度(Flash) |
| V4-Pro Non-Think | 快速,无思维链(Pro) |
| V4-Pro Think High | 中等扩展推理(Pro) |
| V4-Pro Think Max | 最大推理 — 最佳整体结果 |
大多数竞争性基准测试报告的是 V4-Pro-Max 的结果。当您在标题中看到"DeepSeek V4"时,引用的就是这个数值。
编程基准测试
| 基准测试 | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91.6% | 93.5% | 88.8% | N/A | 91.7% |
| Codeforces 评分 | 3052 | 3206 | N/A | 3168 | 3052 |
| HMMT 2026 Feb (Pass@1) | 94.8% | 95.2% | 96.2% | 97.7% | 94.7% |
| IMOAnswerBench (Pass@1) | 88.4% | 89.8% | 75.3% | 91.4% | 81.0% |
突出结果:
- V4-Pro-Max 在所有测试模型中取得最高 Codeforces 评分(3206),超越 GPT-5.4(3168)和 Claude Opus 4.6(N/A)
- V4-Pro-Max 在有数据的模型中引领 LiveCodeBench(93.5%)
- 在数学竞赛(IMO)方面,GPT-5.4 略微领先(91.4% vs 89.8%)
知识与推理基准测试
| 基准测试 | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 86.2% | 87.5% | 89.1% | 87.5% | 91.0% |
| GPQA Diamond (Pass@1) | 88.1% | 90.1% | 91.3% | 93.0% | 94.3% |
| HLE (Pass@1) | 34.8% | 37.7% | 40.0% | 39.8% | 44.4% |
| SimpleQA-Verified (Pass@1) | 34.1% | 57.9% | 46.2% | 45.3% | 75.6% |
| Apex Shortlist (Pass@1) | 85.7% | 90.2% | 85.9% | 78.1% | 89.1% |
关键观察:
- Gemini-3.1-Pro 在大多数知识基准测试中领先(MMLU-Pro、GPQA Diamond、SimpleQA、HLE)
- V4-Pro-Max 在高难度推理基准 Apex Shortlist 中领先(90.2%)
- V4-Pro-Max 的 SimpleQA 得分(57.9%)显著优于 Opus 4.6(46.2%)和 GPT-5.4(45.3%),体现出强大的事实记忆能力
长上下文基准测试
| 基准测试 | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | Gemini-3.1-Pro High |
|---|---|---|---|---|
| MRCR 1M (MMR) | 78.7% | 83.5% | 92.9% | 76.3% |
| CorpusQA 1M (ACC) | 60.5% | 62.0% | 71.7% | 53.8% |
分析:
- V4-Pro 在 CorpusQA 1M 上超越 Gemini-3.1-Pro(62.0% vs 53.8%)
- Claude Opus 4.6 在 MRCR 1M 中领先(92.9% vs 83.5%)— 可能得益于 Claude 针对文档检索的架构优化
- 两款 V4 模型在 CorpusQA 上均轻松超越 Gemini,适合作为 RAG 工作负载的强力选项
智能体任务基准测试
| 基准测试 | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| Terminal Bench 2.0 (Acc) | 56.9% | 67.9% | 65.4% | 75.1% | 68.5% |
| SWE-bench Verified (Resolved) | 79.0% | 80.6% | 80.8% | N/A | 80.6% |
| SWE-bench Pro (Resolved) | 52.6% | 55.4% | 57.3% | 57.7% | 54.2% |
| BrowseComp (Pass@1) | 73.2% | 83.4% | 83.7% | 82.7% | 85.9% |
| MCPAtlas Public (Pass@1) | 69.0% | 73.6% | 73.8% | 67.2% | 69.2% |
| Toolathlon (Pass@1) | 47.8% | 51.8% | 47.2% | 54.6% | 48.8% |
突出结果:
- SWE-bench Verified: V4-Pro(80.6%)与 Gemini-3.1-Pro(80.6%)持平,几乎与 Opus 4.6(80.8%)相当 — 对于开源模型而言令人瞩目
- MCPAtlas: V4-Pro(73.6%)几乎追平类别领先者 Opus 4.6(73.8%)
- Terminal Bench 2.0: GPT-5.4 领先(75.1%),V4-Pro 为 67.9%
基础模型基准测试
V4-Pro-Base(预训练,指令微调前)的结果展示了令人印象深刻的原始能力:
| 基准测试 | DS-V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (EM) | 87.8% | 88.7% | 90.1% |
| MMLU-Redux (EM) | 87.5% | 89.4% | 90.8% |
| GSM8K (EM) | 91.1% | 90.8% | 92.6% |
| HumanEval (Pass@1) | 62.8% | 69.5% | 76.8% |
| LongBench-V2 (EM) | 40.2% | 44.7% | 51.5% |
V4-Pro-Base 在所有类别中始终优于 V3.2-Base 和 V4-Flash-Base。
总结:DeepSeek V4 的优势与劣势
V4-Pro-Max 领先的领域:
- Codeforces 竞技编程(评分 3206)
- LiveCodeBench(93.5%)
- Apex Shortlist 推理(90.2%)
- SimpleQA 事实记忆(57.9%)— 超越大多数非 Gemini 模型
V4-Pro-Max 落后的领域:
- GPQA Diamond(Gemini 以 94.3% 领先)
- HLE 最难推理(Gemini 以 44.4% 领先)
- MRCR 1M 长上下文(Opus 4.6 以 92.9% 领先)
- Terminal Bench 2.0 智能体任务(GPT-5.4 以 75.1% 领先)
对于以编程、智能体任务和长上下文理解为核心使用场景的 AI 原生平台和工具(如 Framia.pro),DeepSeek V4-Pro 的基准测试表现使其成为 2026 年最具吸引力的选择之一。
结论
DeepSeek V4-Pro 是几乎所有基准测试类别中最优秀的开放权重模型,并与每款闭源前沿模型展开了有意义的竞争。其最突出的表现在于竞技编程领域,超越了所有其他测试模型。在最难的科学推理和长文档检索任务中略有差距,但差距正在不断缩小。