DeepSeek V4ベンチマーク完全解説（2026年版）

DeepSeek V4-ProはLiveCodeBenchで93.5%、Codeforces評分3206、GPQA Diamondで90.1%を達成。全モード・全競合モデルとの比較分析を網羅。

DeepSeek V4ベンチマーク：LiveCodeBench・MMLU・SWE-benchなどのスコア徹底解説

DeepSeek V4は2026年4月24日に登場し、大きな注目を集めました。利用可能な最高のオープンソースモデルとして、Codeforcesで最高レーティング、そして推論・知識・エージェント型タスクでフロンティアモデルに迫るパフォーマンスを掲げています。ここでは、モデルバリアントと推論モードごとに整理した、すべての主要ベンチマーク結果の完全な分析をお届けします。

DeepSeek V4のベンチマークモードについて

DeepSeek V4は6つの設定で結果を報告しています：

設定	説明
V4-Flash Non-Think	高速、思考連鎖なし
V4-Flash Think High	中程度の拡張推論
V4-Flash Think Max	最大推論努力（Flash）
V4-Pro Non-Think	高速、思考連鎖なし（Pro）
V4-Pro Think High	中程度の拡張推論（Pro）
V4-Pro Think Max	最大推論 — 総合最高結果

競争力のあるベンチマークのほとんどではV4-Pro-Maxの結果が報告されています。メディアで「DeepSeek V4」と見かけた際に引用される数値がこれです。

コーディングベンチマーク

ベンチマーク	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
LiveCodeBench (Pass@1)	91.6%	93.5%	88.8%	N/A	91.7%
Codeforces レーティング	3052	3206	N/A	3168	3052
HMMT 2026 Feb (Pass@1)	94.8%	95.2%	96.2%	97.7%	94.7%
IMOAnswerBench (Pass@1)	88.4%	89.8%	75.3%	91.4%	81.0%

注目の結果：

V4-Pro-Maxはテスト対象モデル中最高のCodeforcesレーティング（3206）を達成。GPT-5.4（3168）とClaude Opus 4.6（N/A）を上回る
V4-Pro-Maxはデータが入手可能なモデルの中でLiveCodeBench（93.5%）でもトップ
競技数学（IMO）ではGPT-5.4が僅差でリード（91.4% vs 89.8%）

知識・推論ベンチマーク

ベンチマーク	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro (EM)	86.2%	87.5%	89.1%	87.5%	91.0%
GPQA Diamond (Pass@1)	88.1%	90.1%	91.3%	93.0%	94.3%
HLE (Pass@1)	34.8%	37.7%	40.0%	39.8%	44.4%
SimpleQA-Verified (Pass@1)	34.1%	57.9%	46.2%	45.3%	75.6%
Apex Shortlist (Pass@1)	85.7%	90.2%	85.9%	78.1%	89.1%

主な観察点：

Gemini-3.1-Proがほとんどの知識ベンチマーク（MMLU-Pro、GPQA Diamond、SimpleQA、HLE）でリード
V4-Pro-Maxは高難度推論ベンチマークApex Shortlist（90.2%）でトップ
V4-Pro-MaxのSimpleQAスコア（57.9%）はOpus 4.6（46.2%）やGPT-5.4（45.3%）を大きく上回り、強力な事実想起能力を示す

長文コンテキストベンチマーク

ベンチマーク	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	Gemini-3.1-Pro High
MRCR 1M (MMR)	78.7%	83.5%	92.9%	76.3%
CorpusQA 1M (ACC)	60.5%	62.0%	71.7%	53.8%

分析：

V4-ProはCorpusQA 1MでGemini-3.1-Proを上回る（62.0% vs 53.8%）
MRCR 1MではClaude Opus 4.6がリード（92.9% vs 83.5%）— Claudeのドキュメント検索向けアーキテクチャ最適化によるものと推定
両V4モデルはCorpusQAでGeminiを上回り、RAGワークロードに強い

エージェント型タスクベンチマーク

ベンチマーク	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc)	56.9%	67.9%	65.4%	75.1%	68.5%
SWE-bench Verified (Resolved)	79.0%	80.6%	80.8%	N/A	80.6%
SWE-bench Pro (Resolved)	52.6%	55.4%	57.3%	57.7%	54.2%
BrowseComp (Pass@1)	73.2%	83.4%	83.7%	82.7%	85.9%
MCPAtlas Public (Pass@1)	69.0%	73.6%	73.8%	67.2%	69.2%
Toolathlon (Pass@1)	47.8%	51.8%	47.2%	54.6%	48.8%

注目の結果：

SWE-bench Verified： V4-Pro（80.6%）はGemini-3.1-Pro（80.6%）と同率、Opus 4.6（80.8%）にも肉薄 — オープンモデルとして驚異的
MCPAtlas： V4-Pro（73.6%）はカテゴリトップのOpus 4.6（73.8%）とほぼ同等
Terminal Bench 2.0： GPT-5.4がリード（75.1%）、V4-Proは67.9%

ベースモデルベンチマーク

V4-Pro-Base（事前学習済み、インストラクションチューニング前）の結果は、印象的な生の能力を示しています：

ベンチマーク	DS-V3.2-Base	V4-Flash-Base	V4-Pro-Base
MMLU (EM)	87.8%	88.7%	90.1%
MMLU-Redux (EM)	87.5%	89.4%	90.8%
GSM8K (EM)	91.1%	90.8%	92.6%
HumanEval (Pass@1)	62.8%	69.5%	76.8%
LongBench-V2 (EM)	40.2%	44.7%	51.5%

V4-Pro-BaseはすべてのカテゴリでV3.2-BaseとV4-Flash-Baseを一貫して上回っています。

まとめ：DeepSeek V4が優れている点と課題

V4-Pro-Maxがトップとなる分野：

Codeforcesプログラミングコンペ（レーティング3206）
LiveCodeBench（93.5%）
Apex Shortlist推論（90.2%）
SimpleQAの事実想起（57.9%）— 非Geminiモデルの中でトップ

V4-Pro-Maxが後れを取る分野：

GPQA Diamond（Geminiがリード：94.3%）
HLE最難度推論（Geminiがリード：44.4%）
MRCR 1M長文コンテキスト（Opus 4.6がリード：92.9%）
Terminal Bench 2.0エージェント型タスク（GPT-5.4がリード：75.1%）

コーディング、エージェント型タスク、長文理解をコアユースケースとするFramia.proのようなAIネイティブプラットフォームにとって、DeepSeek V4-Proのベンチマーク実績は2026年において最も有力な選択肢のひとつといえます。

結論

DeepSeek V4-Proは、ほぼすべてのベンチマークカテゴリでオープンウェイトモデルのトップに立ち、クローズドソースのフロンティアモデルとも十分に競争できます。特に競技プログラミングにおけるパフォーマンスは突出しており、テスト対象のすべてのモデルを上回っています。最難度の科学的推論や長文書検索では若干の差がありますが、その差は着実に縮まっています。