DeepSeek V4 vs DeepSeek V3:どれだけ進化したのか?
DeepSeek V3(特にV3.2)は、2025年を代表するオープンソースモデルの一つとして広く認知されていました。そのため、2026年4月にDeepSeek V4が登場したとき、誰もが「その進化はどれほどのものか?」と問いました。答えは明快です——特に効率性、コンテキスト処理能力、そしてコーディング性能において、飛躍的な進化を遂げています。
モデル比較
| 項目 | DeepSeek-V3.2 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|---|
| 総パラメータ数 | 671B | 284B | 1.6T |
| アクティブパラメータ数 | 37B | 13B | 49B |
| コンテキストウィンドウ | 128Kトークン | 1Mトークン | 1Mトークン |
| アーキテクチャ | MoE + MLA | MoE + ハイブリッドアテンション(CSA+HCA)+ mHC | MoE + ハイブリッドアテンション(CSA+HCA)+ mHC |
| ライセンス | MIT | MIT | MIT |
| 推論モード | Think / Non-think | Non-think / Think High / Think Max | Non-think / Think High / Think Max |
最も顕著な違いは以下の通りです:
- コンテキストウィンドウ:V3.2は128Kトークンだったのに対し、V4は100万トークン——8倍の拡大
- V4-Proの総パラメータ数はV3.2の2.4倍
- アーキテクチャ:V4はハイブリッドアテンションシステム(CSA + HCA)とmHCを採用し、長文コンテキストの効率性を根本的に刷新
- 推論モード:V3.2には2つのモードがあったが、V4では3つに増え、思考バジェットをより細かく制御可能
効率性の向上:本当の革新
最も印象的な改善は、単なる性能の向上ではなく、大規模スケールでの効率性です。
100万トークンのコンテキストシナリオでは、V4-Proが必要とするのは:
- V3.2が同等のコンテキスト長で必要とする推論FLOPsのわずか27%
- V3.2が必要とするKVキャッシュメモリのわずか10%
これがDeepSeek V4のハイブリッドアテンションアーキテクチャ(CSA + HCA)の核心的なイノベーションです。V4が100万トークンを「処理できる」というだけでなく、V3.2が128Kトークンで必要としていた以上のリソースを大幅に削減しながら実現しているのです。
ベースモデルベンチマーク比較
| ベンチマーク | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU(5-shot) | 87.8% | 88.7% | 90.1% |
| MMLU-Redux(5-shot) | 87.5% | 89.4% | 90.8% |
| MMLU-Pro(5-shot) | 65.5% | 68.3% | 73.5% |
| HumanEval(Pass@1) | 62.8% | 69.5% | 76.8% |
| GSM8K(8-shot) | 91.1% | 90.8% | 92.6% |
| MATH(4-shot) | 60.5% | 57.4% | 64.5% |
| Simple-QA verified | 28.3% | 30.1% | 55.2% |
| LongBench-V2 | 40.2% | 44.7% | 51.5% |
| AGIEval | 80.1% | 82.6% | 83.1% |
主なポイント:
- V4-Pro-BaseはほぼすべてのベンチマークでV3.2-Baseを上回る
- 最も劇的な改善は世界知識(SimpleQA:28.3% → 55.2%)と長文コンテキスト(LongBench-V2:40.2% → 51.5%)
- V4-Flash-Baseは、V3.2より小さいにもかかわらず、多くのタスクで同等以上のパフォーマンスを発揮——驚くべき効率改善
コーディング:劇的な進化
V3.2からV4-Proへのコーディング性能の向上は特に著しく、Think Maxモードではその差が際立っています:
| ベンチマーク | V3.2(推定) | V4-Pro Max |
|---|---|---|
| LiveCodeBench | ~75〜80% | 93.5% |
| HumanEval(Base) | 62.8% | 76.8% |
| SWE-bench Verified | ~75% | 80.6% |
| Codeforcesレーティング | ~2500〜2700 | 3206 |
CodeforcesレーティングのV3.2からV4-Pro-Maxへの跳躍は、質的な転換を意味します——V4-Proは競技プログラミングのエリート層に達しており、V3.2では不可能だったレベルです。
コンテキストウィンドウ:128Kから100万トークンへ
この点は特に強調する価値があります。DeepSeek V3.2の128Kトークンのコンテキストウィンドウは既に十分大きなものでしたが、大規模なコードベース、長大な法律文書、複数の書籍にまたがる研究などには、チャンキングや要約戦略が必要でした。
V4の100万トークンコンテキストは、そうした回避策を完全に不要にします。ワークフロー全体が変わります:
大規模ドキュメントに対するV3.2のワークフロー:
- ドキュメントを120Kトークンのチャンクに分割
- 各チャンクを要約
- 要約をまとめて推論
- 精度とコンテキストの一貫性が失われる
V4のワークフロー:
- ドキュメント全体を一つのコンテキストに読み込む
- 直接質問する
- 一貫した完全な回答を得る
新しいトレーニングの革新
V4はV3.2に対して重要なトレーニング上の改善を導入しました:
| イノベーション | V3.2 | V4 |
|---|---|---|
| オプティマイザー | AdamWバリアント | Muon |
| 残差接続 | 標準 | mHC(多様体制約ハイパー接続) |
| 学習トークン数 | 約18T | 32T以上 |
| ポストトレーニングパイプライン | SFT + RL | 二段階:専門家特化 → オンポリシー蒸留 |
| アテンションメカニズム | MLA(多頭潜在アテンション) | ハイブリッドアテンション(CSA + HCA) |
これらの変更は相乗効果を発揮します。より多くのデータ、より優れたオプティマイザー、より強力な残差接続、そして革命的なアテンションメカニズムが組み合わさることで、ベンチマークの改善が実現されています。
V3.2をまだ使い続けるケースは?
V4の進化にもかかわらず、V3.2が依然として好まれるシナリオも存在します:
- 既存のファインチューン:特定のタスクに向けてV3.2をすでにファインチューンしている場合、V4での再学習は相当な作業を要します
- 小規模ハードウェア:総671B / アクティブ37BのV3.2は、V4-Flash(総284B)を動かせないシステムでも問題なく動作します
- 安定性:V4はプレビューリリースであり、V3.2は安定した実績あるモデルです
まとめ
DeepSeek V3.2からV4への飛躍は、近年のAI史における一世代での最大級の能力向上の一つです。コンテキストウィンドウの8倍拡大、根本的なアーキテクチャの変更、そしてあらゆるカテゴリにおけるベンチマーク改善により、V4はほとんどのユースケースで明確なアップグレードとなります。
現在V3.2を利用している開発者やチーム——直接利用であれ、Framia.proのようなプラットフォームを通じてであれ——V4-FlashまたはV4-Proへの移行はシンプルなAPIの変更で済み、同等またはより低いコストで劇的に向上したパフォーマンスを享受できます。