DeepSeek V4-ProとV4-Flash:どちらを選ぶべきか?
DeepSeek V4はV4-ProとV4-Flashという2つの異なるモデルとして提供されており、それぞれパフォーマンスとコストのバランスにおける異なるニーズを満たしています。自分のワークロードに最適な選択をするためには、両者の違いをしっかり理解することが重要です。
並列比較
| 項目 | V4-Pro | V4-Flash |
|---|---|---|
| 総パラメータ数 | 1.6兆 | 2840億 |
| アクティブパラメータ数 | 490億 | 130億 |
| コンテキストウィンドウ | 100万トークン | 100万トークン |
| ライセンス | MIT | MIT |
| ダウンロードサイズ | 約865 GB | 約160 GB |
| API入力価格 | $1.74 / 100万トークン | $0.14 / 100万トークン |
| API出力価格 | $3.48 / 100万トークン | $0.28 / 100万トークン |
| 推論モード | Non-think / Think High / Think Max | Non-think / Think High / Think Max |
両モデルは同じアーキテクチャの革新(ハイブリッドアテンション:CSA + HCA、mHC、Muonオプティマイザ事前学習)を共有し、同じ3つの推論努力モードを利用できます。主な違いはスケールです。
ベンチマーク比較:ProとFlashの各モード
DeepSeek V4で最も興味深い点の一つは、Flashに大きな「思考バジェット」を与えた場合に何が起こるかです。
知識・推論
| ベンチマーク | Flash Non-Think | Flash Max | Pro Non-Think | Pro Max |
|---|---|---|---|---|
| MMLU-Pro | 83.0% | 86.2% | 82.9% | 87.5% |
| GPQA Diamond | 71.2% | 88.1% | 72.9% | 90.1% |
| HLE | 8.1% | 34.8% | 7.7% | 37.7% |
| SimpleQA-Verified | 23.1% | 34.1% | 45.0% | 57.9% |
コーディング・数学
| ベンチマーク | Flash Max | Pro Max |
|---|---|---|
| LiveCodeBench | 91.6% | 93.5% |
| Codeforces Rating | 3052 | 3206 |
| HMMT 2026 Feb | 94.8% | 95.2% |
エージェントタスク
| ベンチマーク | Flash Max | Pro Max |
|---|---|---|
| Terminal Bench 2.0 | 56.9% | 67.9% |
| SWE-bench Pro | 52.6% | 55.4% |
| SWE-bench Verified | 79.0% | 80.6% |
ベンチマークからの重要な示唆
V4-Flash-Maxは驚くほど優秀です。拡張された思考時間が与えられると、V4-Proとの差を大幅に縮めます。ほとんどのタスクでFlash-Maxは旧世代のフロンティアモデルに匹敵します。Pro-Maxが明確に優位な主な領域は以下の通りです:
- 世界知識(SimpleQA-Verified:57.9% vs 34.1%)
- エージェント複雑性(Terminal Bench 2.0:67.9% vs 56.9%)
- ピーク推論(HLE:37.7% vs 34.8%)
速度とレイテンシ
V4-Flashはアクティブパラメータが少ない(13B vs 49B)ため、大幅に高速です:
- Non-thinkモード: Flashはトークンあたり約3〜4倍高速
- Thinkモード: 両モデルが拡張推論を行うため、レイテンシの差は縮まる
- 初回トークンレイテンシ: Flashが明確に優位。インタラクティブアプリケーションにとって重要
リアルタイムアプリケーション(チャットボット、インタラクティブコーディングアシスタント、ライブクリエイティブツール)ではFlashのスピード優位性が最適な選択を意味します。
長コンテキストパフォーマンス
| ベンチマーク | Flash Max | Pro Max |
|---|---|---|
| MRCR 1M (MMR) | 78.7% | 83.5% |
| CorpusQA 1M | 60.5% | 62.0% |
Pro-Maxは長コンテキスト検索において、特に100万トークン上限付近で意味のある優位性を持ちます。書籍全体、法的書類、または大規模コードベースを一括処理するアプリケーションでは、Proの追加パラメータが非常に長いシーケンスにわたる情報保持の改善に貢献します。
セルフホスティングの考慮事項
自社推論インフラを運用する組織向け:
| 要素 | V4-Flash | V4-Pro |
|---|---|---|
| GPU VRAM(フル精度) | 約160 GB | 約865 GB |
| 最小GPUクラスタ | 2× H100または8× A100 | 16基以上のH100 |
| 量子化(コミュニティGGUF) | 約80 GB | 約200 GB以上 |
| コンシューマハードウェアで実現可能? | RTX 5090 1台(量子化時) | 不可 |
V4-Flashはローカルデプロイメントにおいてはるかにアクセスしやすいです。コミュニティ量子化によりハイエンドコンシューマハードウェアでの実行が可能ですが、V4-Proは大規模なGPUクラスタが必要です。
どちらを選ぶべきか?
V4-Flashを選ぶ場合:
- ✅ 大量・コスト重視のワークロードを処理している
- ✅ 最大精度よりも速度が重要
- ✅ タスクの複雑度が中程度(要約、Q&A、コード補完、分類)
- ✅ トラフィックが予測しにくいコンシューマ向け製品をデプロイしている
- ✅ アクセスしやすいハードウェアでセルフホストしたい
- ✅ より大きなインフラ投資にコミットする前に実験している
V4-Proを選ぶ場合:
- ✅ 最大の世界知識の深さが必要
- ✅ 多段階ターミナル実行を伴う複雑なエージェントワークフローを扱っている
- ✅ コンペティションレベルの数学、高度な科学的推論、フロンティアコーディングに取り組んでいる
- ✅ 100万トークン全体のドキュメントに対する長コンテキスト忠実度が重要
- ✅ 研究ベンチマークを実行したり、他のフロンティアモデルと比較している
両方を使用することを検討:
多くの本番システムはルーティング戦略から恩恵を受けます。シンプルまたは高頻度のリクエストにはFlashを、複雑性の閾値を超えるタスクにはProを使用します。Framia.proのようなプラットフォームは、多様なクリエイティブAIワークロード全体で品質とコストのバランスを取るために、このようなインテリジェントなモデルルーティングを適用しています。
結論
V4-ProとV4-Flashは競合するものではなく、互いに補完し合う存在です。Flashはほとんどの実世界のアプリケーションで卓越したコストパフォーマンスを提供し、Proは最も難しいタスクで最大の能力を発揮します。どちらもオープンソース・MITライセンスで、初日からAPIを通じて利用可能。選択・組み合わせ・反復のための完全な柔軟性があります。