DeepSeek V4 vs DeepSeek V3:どれだけ進化したのか?

DeepSeek V4とV3.2を徹底比較。コンテキストウィンドウ8倍拡大、ハイブリッドアテンション、Muonオプティマイザー、32Tトークン学習など主要な改善点をわかりやすく解説。

by Framia

DeepSeek V4 vs DeepSeek V3:どれだけ進化したのか?

DeepSeek V3(特にV3.2)は、2025年を代表するオープンソースモデルの一つとして広く認知されていました。そのため、2026年4月にDeepSeek V4が登場したとき、誰もが「その進化はどれほどのものか?」と問いました。答えは明快です——特に効率性、コンテキスト処理能力、そしてコーディング性能において、飛躍的な進化を遂げています。


モデル比較

項目 DeepSeek-V3.2 DeepSeek-V4-Flash DeepSeek-V4-Pro
総パラメータ数 671B 284B 1.6T
アクティブパラメータ数 37B 13B 49B
コンテキストウィンドウ 128Kトークン 1Mトークン 1Mトークン
アーキテクチャ MoE + MLA MoE + ハイブリッドアテンション(CSA+HCA)+ mHC MoE + ハイブリッドアテンション(CSA+HCA)+ mHC
ライセンス MIT MIT MIT
推論モード Think / Non-think Non-think / Think High / Think Max Non-think / Think High / Think Max

最も顕著な違いは以下の通りです:

  1. コンテキストウィンドウ:V3.2は128Kトークンだったのに対し、V4は100万トークン——8倍の拡大
  2. V4-Proの総パラメータ数はV3.2の2.4倍
  3. アーキテクチャ:V4はハイブリッドアテンションシステム(CSA + HCA)とmHCを採用し、長文コンテキストの効率性を根本的に刷新
  4. 推論モード:V3.2には2つのモードがあったが、V4では3つに増え、思考バジェットをより細かく制御可能

効率性の向上:本当の革新

最も印象的な改善は、単なる性能の向上ではなく、大規模スケールでの効率性です。

100万トークンのコンテキストシナリオでは、V4-Proが必要とするのは:

  • V3.2が同等のコンテキスト長で必要とする推論FLOPsのわずか27%
  • V3.2が必要とするKVキャッシュメモリのわずか10%

これがDeepSeek V4のハイブリッドアテンションアーキテクチャ(CSA + HCA)の核心的なイノベーションです。V4が100万トークンを「処理できる」というだけでなく、V3.2が128Kトークンで必要としていた以上のリソースを大幅に削減しながら実現しているのです。


ベースモデルベンチマーク比較

ベンチマーク V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU(5-shot) 87.8% 88.7% 90.1%
MMLU-Redux(5-shot) 87.5% 89.4% 90.8%
MMLU-Pro(5-shot) 65.5% 68.3% 73.5%
HumanEval(Pass@1) 62.8% 69.5% 76.8%
GSM8K(8-shot) 91.1% 90.8% 92.6%
MATH(4-shot) 60.5% 57.4% 64.5%
Simple-QA verified 28.3% 30.1% 55.2%
LongBench-V2 40.2% 44.7% 51.5%
AGIEval 80.1% 82.6% 83.1%

主なポイント:

  • V4-Pro-BaseはほぼすべてのベンチマークでV3.2-Baseを上回る
  • 最も劇的な改善は世界知識(SimpleQA:28.3% → 55.2%)と長文コンテキスト(LongBench-V2:40.2% → 51.5%)
  • V4-Flash-Baseは、V3.2より小さいにもかかわらず、多くのタスクで同等以上のパフォーマンスを発揮——驚くべき効率改善

コーディング:劇的な進化

V3.2からV4-Proへのコーディング性能の向上は特に著しく、Think Maxモードではその差が際立っています:

ベンチマーク V3.2(推定) V4-Pro Max
LiveCodeBench ~75〜80% 93.5%
HumanEval(Base) 62.8% 76.8%
SWE-bench Verified ~75% 80.6%
Codeforcesレーティング ~2500〜2700 3206

CodeforcesレーティングのV3.2からV4-Pro-Maxへの跳躍は、質的な転換を意味します——V4-Proは競技プログラミングのエリート層に達しており、V3.2では不可能だったレベルです。


コンテキストウィンドウ:128Kから100万トークンへ

この点は特に強調する価値があります。DeepSeek V3.2の128Kトークンのコンテキストウィンドウは既に十分大きなものでしたが、大規模なコードベース、長大な法律文書、複数の書籍にまたがる研究などには、チャンキングや要約戦略が必要でした。

V4の100万トークンコンテキストは、そうした回避策を完全に不要にします。ワークフロー全体が変わります:

大規模ドキュメントに対するV3.2のワークフロー:

  1. ドキュメントを120Kトークンのチャンクに分割
  2. 各チャンクを要約
  3. 要約をまとめて推論
  4. 精度とコンテキストの一貫性が失われる

V4のワークフロー:

  1. ドキュメント全体を一つのコンテキストに読み込む
  2. 直接質問する
  3. 一貫した完全な回答を得る

新しいトレーニングの革新

V4はV3.2に対して重要なトレーニング上の改善を導入しました:

イノベーション V3.2 V4
オプティマイザー AdamWバリアント Muon
残差接続 標準 mHC(多様体制約ハイパー接続)
学習トークン数 約18T 32T以上
ポストトレーニングパイプライン SFT + RL 二段階:専門家特化 → オンポリシー蒸留
アテンションメカニズム MLA(多頭潜在アテンション) ハイブリッドアテンション(CSA + HCA)

これらの変更は相乗効果を発揮します。より多くのデータ、より優れたオプティマイザー、より強力な残差接続、そして革命的なアテンションメカニズムが組み合わさることで、ベンチマークの改善が実現されています。


V3.2をまだ使い続けるケースは?

V4の進化にもかかわらず、V3.2が依然として好まれるシナリオも存在します:

  • 既存のファインチューン:特定のタスクに向けてV3.2をすでにファインチューンしている場合、V4での再学習は相当な作業を要します
  • 小規模ハードウェア:総671B / アクティブ37BのV3.2は、V4-Flash(総284B)を動かせないシステムでも問題なく動作します
  • 安定性:V4はプレビューリリースであり、V3.2は安定した実績あるモデルです

まとめ

DeepSeek V3.2からV4への飛躍は、近年のAI史における一世代での最大級の能力向上の一つです。コンテキストウィンドウの8倍拡大、根本的なアーキテクチャの変更、そしてあらゆるカテゴリにおけるベンチマーク改善により、V4はほとんどのユースケースで明確なアップグレードとなります。

現在V3.2を利用している開発者やチーム——直接利用であれ、Framia.proのようなプラットフォームを通じてであれ——V4-FlashまたはV4-Proへの移行はシンプルなAPIの変更で済み、同等またはより低いコストで劇的に向上したパフォーマンスを享受できます。