DeepSeek V4ベンチマーク:LiveCodeBench・MMLU・SWE-benchなどのスコア徹底解説
DeepSeek V4は2026年4月24日に登場し、大きな注目を集めました。利用可能な最高のオープンソースモデルとして、Codeforcesで最高レーティング、そして推論・知識・エージェント型タスクでフロンティアモデルに迫るパフォーマンスを掲げています。ここでは、モデルバリアントと推論モードごとに整理した、すべての主要ベンチマーク結果の完全な分析をお届けします。
DeepSeek V4のベンチマークモードについて
DeepSeek V4は6つの設定で結果を報告しています:
| 設定 | 説明 |
|---|---|
| V4-Flash Non-Think | 高速、思考連鎖なし |
| V4-Flash Think High | 中程度の拡張推論 |
| V4-Flash Think Max | 最大推論努力(Flash) |
| V4-Pro Non-Think | 高速、思考連鎖なし(Pro) |
| V4-Pro Think High | 中程度の拡張推論(Pro) |
| V4-Pro Think Max | 最大推論 — 総合最高結果 |
競争力のあるベンチマークのほとんどではV4-Pro-Maxの結果が報告されています。メディアで「DeepSeek V4」と見かけた際に引用される数値がこれです。
コーディングベンチマーク
| ベンチマーク | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91.6% | 93.5% | 88.8% | N/A | 91.7% |
| Codeforces レーティング | 3052 | 3206 | N/A | 3168 | 3052 |
| HMMT 2026 Feb (Pass@1) | 94.8% | 95.2% | 96.2% | 97.7% | 94.7% |
| IMOAnswerBench (Pass@1) | 88.4% | 89.8% | 75.3% | 91.4% | 81.0% |
注目の結果:
- V4-Pro-Maxはテスト対象モデル中最高のCodeforcesレーティング(3206)を達成。GPT-5.4(3168)とClaude Opus 4.6(N/A)を上回る
- V4-Pro-Maxはデータが入手可能なモデルの中でLiveCodeBench(93.5%)でもトップ
- 競技数学(IMO)ではGPT-5.4が僅差でリード(91.4% vs 89.8%)
知識・推論ベンチマーク
| ベンチマーク | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 86.2% | 87.5% | 89.1% | 87.5% | 91.0% |
| GPQA Diamond (Pass@1) | 88.1% | 90.1% | 91.3% | 93.0% | 94.3% |
| HLE (Pass@1) | 34.8% | 37.7% | 40.0% | 39.8% | 44.4% |
| SimpleQA-Verified (Pass@1) | 34.1% | 57.9% | 46.2% | 45.3% | 75.6% |
| Apex Shortlist (Pass@1) | 85.7% | 90.2% | 85.9% | 78.1% | 89.1% |
主な観察点:
- Gemini-3.1-Proがほとんどの知識ベンチマーク(MMLU-Pro、GPQA Diamond、SimpleQA、HLE)でリード
- V4-Pro-Maxは高難度推論ベンチマークApex Shortlist(90.2%)でトップ
- V4-Pro-MaxのSimpleQAスコア(57.9%)はOpus 4.6(46.2%)やGPT-5.4(45.3%)を大きく上回り、強力な事実想起能力を示す
長文コンテキストベンチマーク
| ベンチマーク | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | Gemini-3.1-Pro High |
|---|---|---|---|---|
| MRCR 1M (MMR) | 78.7% | 83.5% | 92.9% | 76.3% |
| CorpusQA 1M (ACC) | 60.5% | 62.0% | 71.7% | 53.8% |
分析:
- V4-ProはCorpusQA 1MでGemini-3.1-Proを上回る(62.0% vs 53.8%)
- MRCR 1MではClaude Opus 4.6がリード(92.9% vs 83.5%)— Claudeのドキュメント検索向けアーキテクチャ最適化によるものと推定
- 両V4モデルはCorpusQAでGeminiを上回り、RAGワークロードに強い
エージェント型タスクベンチマーク
| ベンチマーク | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| Terminal Bench 2.0 (Acc) | 56.9% | 67.9% | 65.4% | 75.1% | 68.5% |
| SWE-bench Verified (Resolved) | 79.0% | 80.6% | 80.8% | N/A | 80.6% |
| SWE-bench Pro (Resolved) | 52.6% | 55.4% | 57.3% | 57.7% | 54.2% |
| BrowseComp (Pass@1) | 73.2% | 83.4% | 83.7% | 82.7% | 85.9% |
| MCPAtlas Public (Pass@1) | 69.0% | 73.6% | 73.8% | 67.2% | 69.2% |
| Toolathlon (Pass@1) | 47.8% | 51.8% | 47.2% | 54.6% | 48.8% |
注目の結果:
- SWE-bench Verified: V4-Pro(80.6%)はGemini-3.1-Pro(80.6%)と同率、Opus 4.6(80.8%)にも肉薄 — オープンモデルとして驚異的
- MCPAtlas: V4-Pro(73.6%)はカテゴリトップのOpus 4.6(73.8%)とほぼ同等
- Terminal Bench 2.0: GPT-5.4がリード(75.1%)、V4-Proは67.9%
ベースモデルベンチマーク
V4-Pro-Base(事前学習済み、インストラクションチューニング前)の結果は、印象的な生の能力を示しています:
| ベンチマーク | DS-V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (EM) | 87.8% | 88.7% | 90.1% |
| MMLU-Redux (EM) | 87.5% | 89.4% | 90.8% |
| GSM8K (EM) | 91.1% | 90.8% | 92.6% |
| HumanEval (Pass@1) | 62.8% | 69.5% | 76.8% |
| LongBench-V2 (EM) | 40.2% | 44.7% | 51.5% |
V4-Pro-BaseはすべてのカテゴリでV3.2-BaseとV4-Flash-Baseを一貫して上回っています。
まとめ:DeepSeek V4が優れている点と課題
V4-Pro-Maxがトップとなる分野:
- Codeforcesプログラミングコンペ(レーティング3206)
- LiveCodeBench(93.5%)
- Apex Shortlist推論(90.2%)
- SimpleQAの事実想起(57.9%)— 非Geminiモデルの中でトップ
V4-Pro-Maxが後れを取る分野:
- GPQA Diamond(Geminiがリード:94.3%)
- HLE最難度推論(Geminiがリード:44.4%)
- MRCR 1M長文コンテキスト(Opus 4.6がリード:92.9%)
- Terminal Bench 2.0エージェント型タスク(GPT-5.4がリード:75.1%)
コーディング、エージェント型タスク、長文理解をコアユースケースとするFramia.proのようなAIネイティブプラットフォームにとって、DeepSeek V4-Proのベンチマーク実績は2026年において最も有力な選択肢のひとつといえます。
結論
DeepSeek V4-Proは、ほぼすべてのベンチマークカテゴリでオープンウェイトモデルのトップに立ち、クローズドソースのフロンティアモデルとも十分に競争できます。特に競技プログラミングにおけるパフォーマンスは突出しており、テスト対象のすべてのモデルを上回っています。最難度の科学的推論や長文書検索では若干の差がありますが、その差は着実に縮まっています。