DeepSeek V4 基准测试完整解析（2026年）

DeepSeek V4-Pro 在 LiveCodeBench 获得 93.5%，Codeforces 评分 3206，GPQA Diamond 达到 90.1%。覆盖所有模式与竞品的完整基准测试分析。

DeepSeek V4 基准测试：LiveCodeBench、MMLU、SWE-bench 等全面评分解析

DeepSeek V4 于 2026 年 4 月 24 日正式发布，带来了令人瞩目的声明：最佳可用开源模型、顶级 Codeforces 评分，以及在推理、知识和智能体任务方面媲美前沿模型的性能。以下是按模型变体和推理模式划分的所有主要基准测试结果完整分析。

DeepSeek V4 以六种配置报告结果：

大多数竞争性基准测试报告的是 V4-Pro-Max 的结果。当您在标题中看到"DeepSeek V4"时，引用的就是这个数值。

基准测试	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
LiveCodeBench (Pass@1)	91.6%	93.5%	88.8%	N/A	91.7%
Codeforces 评分	3052	3206	N/A	3168	3052
HMMT 2026 Feb (Pass@1)	94.8%	95.2%	96.2%	97.7%	94.7%
IMOAnswerBench (Pass@1)	88.4%	89.8%	75.3%	91.4%	81.0%

突出结果：

V4-Pro-Max 在所有测试模型中取得最高 Codeforces 评分（3206），超越 GPT-5.4（3168）和 Claude Opus 4.6（N/A）
V4-Pro-Max 在有数据的模型中引领 LiveCodeBench（93.5%）
在数学竞赛（IMO）方面，GPT-5.4 略微领先（91.4% vs 89.8%）

基准测试	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro (EM)	86.2%	87.5%	89.1%	87.5%	91.0%
GPQA Diamond (Pass@1)	88.1%	90.1%	91.3%	93.0%	94.3%
HLE (Pass@1)	34.8%	37.7%	40.0%	39.8%	44.4%
SimpleQA-Verified (Pass@1)	34.1%	57.9%	46.2%	45.3%	75.6%
Apex Shortlist (Pass@1)	85.7%	90.2%	85.9%	78.1%	89.1%

关键观察：

Gemini-3.1-Pro 在大多数知识基准测试中领先（MMLU-Pro、GPQA Diamond、SimpleQA、HLE）
V4-Pro-Max 在高难度推理基准 Apex Shortlist 中领先（90.2%）
V4-Pro-Max 的 SimpleQA 得分（57.9%）显著优于 Opus 4.6（46.2%）和 GPT-5.4（45.3%），体现出强大的事实记忆能力

基准测试	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	Gemini-3.1-Pro High
MRCR 1M (MMR)	78.7%	83.5%	92.9%	76.3%
CorpusQA 1M (ACC)	60.5%	62.0%	71.7%	53.8%

分析：

基准测试	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc)	56.9%	67.9%	65.4%	75.1%	68.5%
SWE-bench Verified (Resolved)	79.0%	80.6%	80.8%	N/A	80.6%
SWE-bench Pro (Resolved)	52.6%	55.4%	57.3%	57.7%	54.2%
BrowseComp (Pass@1)	73.2%	83.4%	83.7%	82.7%	85.9%
MCPAtlas Public (Pass@1)	69.0%	73.6%	73.8%	67.2%	69.2%
Toolathlon (Pass@1)	47.8%	51.8%	47.2%	54.6%	48.8%

突出结果：

SWE-bench Verified： V4-Pro（80.6%）与 Gemini-3.1-Pro（80.6%）持平，几乎与 Opus 4.6（80.8%）相当 — 对于开源模型而言令人瞩目
MCPAtlas： V4-Pro（73.6%）几乎追平类别领先者 Opus 4.6（73.8%）
Terminal Bench 2.0： GPT-5.4 领先（75.1%），V4-Pro 为 67.9%

V4-Pro-Base（预训练，指令微调前）的结果展示了令人印象深刻的原始能力：

基准测试	DS-V3.2-Base	V4-Flash-Base	V4-Pro-Base
MMLU (EM)	87.8%	88.7%	90.1%
MMLU-Redux (EM)	87.5%	89.4%	90.8%
GSM8K (EM)	91.1%	90.8%	92.6%
HumanEval (Pass@1)	62.8%	69.5%	76.8%
LongBench-V2 (EM)	40.2%	44.7%	51.5%

V4-Pro-Base 在所有类别中始终优于 V3.2-Base 和 V4-Flash-Base。

V4-Pro-Max 领先的领域：

V4-Pro-Max 落后的领域：

对于以编程、智能体任务和长上下文理解为核心使用场景的 AI 原生平台和工具（如 Framia.pro），DeepSeek V4-Pro 的基准测试表现使其成为 2026 年最具吸引力的选择之一。

DeepSeek V4-Pro 是几乎所有基准测试类别中最优秀的开放权重模型，并与每款闭源前沿模型展开了有意义的竞争。其最突出的表现在于竞技编程领域，超越了所有其他测试模型。在最难的科学推理和长文档检索任务中略有差距，但差距正在不断缩小。