DeepSeek V4ベンチマーク:LiveCodeBench・MMLU・SWE-benchなどのスコア徹底解説

DeepSeek V4-ProはLiveCodeBenchで93.5%、Codeforces評分3206、GPQA Diamondで90.1%を達成。全モード・全競合モデルとの比較分析を網羅。

by Framia

DeepSeek V4ベンチマーク:LiveCodeBench・MMLU・SWE-benchなどのスコア徹底解説

DeepSeek V4は2026年4月24日に登場し、大きな注目を集めました。利用可能な最高のオープンソースモデルとして、Codeforcesで最高レーティング、そして推論・知識・エージェント型タスクでフロンティアモデルに迫るパフォーマンスを掲げています。ここでは、モデルバリアントと推論モードごとに整理した、すべての主要ベンチマーク結果の完全な分析をお届けします。


DeepSeek V4のベンチマークモードについて

DeepSeek V4は6つの設定で結果を報告しています:

設定 説明
V4-Flash Non-Think 高速、思考連鎖なし
V4-Flash Think High 中程度の拡張推論
V4-Flash Think Max 最大推論努力(Flash)
V4-Pro Non-Think 高速、思考連鎖なし(Pro)
V4-Pro Think High 中程度の拡張推論(Pro)
V4-Pro Think Max 最大推論 — 総合最高結果

競争力のあるベンチマークのほとんどではV4-Pro-Maxの結果が報告されています。メディアで「DeepSeek V4」と見かけた際に引用される数値がこれです。


コーディングベンチマーク

ベンチマーク V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
LiveCodeBench (Pass@1) 91.6% 93.5% 88.8% N/A 91.7%
Codeforces レーティング 3052 3206 N/A 3168 3052
HMMT 2026 Feb (Pass@1) 94.8% 95.2% 96.2% 97.7% 94.7%
IMOAnswerBench (Pass@1) 88.4% 89.8% 75.3% 91.4% 81.0%

注目の結果:

  • V4-Pro-Maxはテスト対象モデル中最高のCodeforcesレーティング(3206)を達成。GPT-5.4(3168)とClaude Opus 4.6(N/A)を上回る
  • V4-Pro-Maxはデータが入手可能なモデルの中でLiveCodeBench(93.5%)でもトップ
  • 競技数学(IMO)ではGPT-5.4が僅差でリード(91.4% vs 89.8%)

知識・推論ベンチマーク

ベンチマーク V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro (EM) 86.2% 87.5% 89.1% 87.5% 91.0%
GPQA Diamond (Pass@1) 88.1% 90.1% 91.3% 93.0% 94.3%
HLE (Pass@1) 34.8% 37.7% 40.0% 39.8% 44.4%
SimpleQA-Verified (Pass@1) 34.1% 57.9% 46.2% 45.3% 75.6%
Apex Shortlist (Pass@1) 85.7% 90.2% 85.9% 78.1% 89.1%

主な観察点:

  • Gemini-3.1-Proがほとんどの知識ベンチマーク(MMLU-Pro、GPQA Diamond、SimpleQA、HLE)でリード
  • V4-Pro-Maxは高難度推論ベンチマークApex Shortlist(90.2%)でトップ
  • V4-Pro-MaxのSimpleQAスコア(57.9%)はOpus 4.6(46.2%)やGPT-5.4(45.3%)を大きく上回り、強力な事実想起能力を示す

長文コンテキストベンチマーク

ベンチマーク V4-Flash Max V4-Pro Max Opus 4.6 Max Gemini-3.1-Pro High
MRCR 1M (MMR) 78.7% 83.5% 92.9% 76.3%
CorpusQA 1M (ACC) 60.5% 62.0% 71.7% 53.8%

分析:

  • V4-ProはCorpusQA 1MでGemini-3.1-Proを上回る(62.0% vs 53.8%)
  • MRCR 1MではClaude Opus 4.6がリード(92.9% vs 83.5%)— Claudeのドキュメント検索向けアーキテクチャ最適化によるものと推定
  • 両V4モデルはCorpusQAでGeminiを上回り、RAGワークロードに強い

エージェント型タスクベンチマーク

ベンチマーク V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc) 56.9% 67.9% 65.4% 75.1% 68.5%
SWE-bench Verified (Resolved) 79.0% 80.6% 80.8% N/A 80.6%
SWE-bench Pro (Resolved) 52.6% 55.4% 57.3% 57.7% 54.2%
BrowseComp (Pass@1) 73.2% 83.4% 83.7% 82.7% 85.9%
MCPAtlas Public (Pass@1) 69.0% 73.6% 73.8% 67.2% 69.2%
Toolathlon (Pass@1) 47.8% 51.8% 47.2% 54.6% 48.8%

注目の結果:

  • SWE-bench Verified: V4-Pro(80.6%)はGemini-3.1-Pro(80.6%)と同率、Opus 4.6(80.8%)にも肉薄 — オープンモデルとして驚異的
  • MCPAtlas: V4-Pro(73.6%)はカテゴリトップのOpus 4.6(73.8%)とほぼ同等
  • Terminal Bench 2.0: GPT-5.4がリード(75.1%)、V4-Proは67.9%

ベースモデルベンチマーク

V4-Pro-Base(事前学習済み、インストラクションチューニング前)の結果は、印象的な生の能力を示しています:

ベンチマーク DS-V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (EM) 87.8% 88.7% 90.1%
MMLU-Redux (EM) 87.5% 89.4% 90.8%
GSM8K (EM) 91.1% 90.8% 92.6%
HumanEval (Pass@1) 62.8% 69.5% 76.8%
LongBench-V2 (EM) 40.2% 44.7% 51.5%

V4-Pro-BaseはすべてのカテゴリでV3.2-BaseとV4-Flash-Baseを一貫して上回っています。


まとめ:DeepSeek V4が優れている点と課題

V4-Pro-Maxがトップとなる分野:

  • Codeforcesプログラミングコンペ(レーティング3206)
  • LiveCodeBench(93.5%)
  • Apex Shortlist推論(90.2%)
  • SimpleQAの事実想起(57.9%)— 非Geminiモデルの中でトップ

V4-Pro-Maxが後れを取る分野:

  • GPQA Diamond(Geminiがリード:94.3%)
  • HLE最難度推論(Geminiがリード:44.4%)
  • MRCR 1M長文コンテキスト(Opus 4.6がリード:92.9%)
  • Terminal Bench 2.0エージェント型タスク(GPT-5.4がリード:75.1%)

コーディング、エージェント型タスク、長文理解をコアユースケースとするFramia.proのようなAIネイティブプラットフォームにとって、DeepSeek V4-Proのベンチマーク実績は2026年において最も有力な選択肢のひとつといえます。


結論

DeepSeek V4-Proは、ほぼすべてのベンチマークカテゴリでオープンウェイトモデルのトップに立ち、クローズドソースのフロンティアモデルとも十分に競争できます。特に競技プログラミングにおけるパフォーマンスは突出しており、テスト対象のすべてのモデルを上回っています。最難度の科学的推論や長文書検索では若干の差がありますが、その差は着実に縮まっています。