DeepSeek V4のモデルアーキテクチャ:ハイブリッドアテンション、mHC、MoEを徹底解説

DeepSeek V4はハイブリッドアテンション(CSA+HCA)、多様体制約ハイパー接続(mHC)、Muonオプティマイザを採用。各イノベーションが実際に何をするのかをわかりやすく解説します。

by Framia

DeepSeek V4のモデルアーキテクチャ:ハイブリッドアテンション、mHC、MoEを徹底解説

DeepSeek V4はV3の単なる拡大版ではありません。特にロングコンテキスト処理において効率性を飛躍的に向上させる、根本的なアーキテクチャ変更が導入されています。DeepSeek V4がデフォルトで100万トークンを扱える理由、そして従来モデルと比べてなぜはるかに少ない計算量で実現できるのか——このガイドでは主要なイノベーションを一つひとつ解説します。


概要:4つのコアアーキテクチャ

  1. Mixture of Experts(MoE) — 計算効率のためのスパース活性化
  2. ハイブリッドアテンションアーキテクチャ(CSA+HCA) — 100万トークン効率化の鍵
  3. 多様体制約ハイパー接続(mHC) — 安定した信号伝播
  4. Muonオプティマイザ — より速く、より安定したトレーニング

それぞれ詳しく見ていきましょう。


1. Mixture of Experts(MoE)

DeepSeek V4はPro(1.6T/49Bアクティブ)とFlash(284B/13Bアクティブ)の両バリアントにわたってMoEアーキテクチャを採用しています。MoEはモデルのフィードフォワード層を多数の専門化された「エキスパート」に分割し、学習可能なルーターが各トークンに最も関連性の高いエキスパートを選択する仕組みです。

重要な理由: 数千億〜数兆パラメータのモデルに相当する知識容量を持ちながら、各トークンに対してはそのごく一部しか活性化しません。推論コストは総パラメータ数ではなくアクティブパラメータ数に比例するため、MoEは同等の密なモデルと比べて計算効率が格段に優れています。

DeepSeekのポストトレーニングパイプラインには特徴的な2段階アプローチが採用されています:

  • ステージ1: SFTとGRPOによるRLを使った独立エキスパートの専門化
  • ステージ2: オンポリシー蒸留による統合モデルの統合——すべての専門的知識を単一の一貫したモデルに統合

2. ハイブリッドアテンションアーキテクチャ:CSA+HCA

これがDeepSeek V4の最も重要なイノベーションであり、100万トークンがデフォルトのコンテキスト長となった理由です。

ロングコンテキストにおける標準アテンションの問題

標準的なトランスフォーマーアテンション(古いモデルなど)はシーケンス長に対して二次的にスケールします。100万トークンでは、天文学的な量のメモリ(KVキャッシュ)と計算量が必要となり、現実的ではありません。

DeepSeekの解決策:2つの補完的なアテンションメカニズム

圧縮スパースアテンション(CSA)

  • トークン単位の圧縮を適用し、保存・取得が必要なキーバリューペアの数を削減
  • 完全な解像度でシーケンス全体を保存せずに、遠くのコンテキストに効率的にアクセスできるようにする

重圧縮アテンション(HCA)

  • さらに進んで、現在の位置から非常に遠いトークンに積極的な圧縮を適用
  • 本質的にモデルに「履歴の遠いトークンについては、高度に圧縮されたサマリーを保存する——すべての詳細を覚えようとしないで」と指示する

CSAとHCAを組み合わせることで階層的なメモリシステムが実現されます:直近のトークンは完全なアテンション、やや遠いトークンは圧縮アテンション、非常に遠いトークンは重圧縮アテンションを受けます。これは人間のワーキングメモリの実際の動作に似ています。

結果:驚異的な効率化

100万トークンのコンテキストシナリオにおいて:

  • V4-ProはV3.2比でシングルトークン推論FLOPsの27%のみを必要とする
  • V4-ProはV3.2比でKVキャッシュメモリの10%のみを必要とする

これは計算量が約3.7倍、メモリが10倍削減されることを意味し、V3.2では不可能だったハードウェアで100万トークンコンテキストを実現します。


3. 多様体制約ハイパー接続(mHC)

モデルが何百ものレイヤーにわたって数兆のパラメータにスケールするにつれ、一般的な失敗モードとして勾配劣化があります——深いネットワークを通じて信号が効果的に伝播するには弱すぎたり、ノイズが多すぎたりします。

DeepSeekの解決策は**mHC(多様体制約ハイパー接続)**です。これは重み更新をリーマン多様体上に制約することで、従来の残差接続を強化します。平たく言えば、mHCは:

  • トランスフォーマー層間の残差パスウェイを強化する
  • ネットワークの深さを通じた信号の流れを安定化する
  • 勾配爆発や消失を防ぎながらモデルの表現力を保持する

実際の効果:1.6Tパラメータを持つV4-Proは、他のほとんどのアーキテクチャを不安定にするようなスケールでも安定してトレーニングできます。


4. Muonオプティマイザ

DeepSeek V4は標準的なAdamWオプティマイザをMuonオプティマイザ(Momentum+Orthogonalizationの略)に置き換えています。Muonは:

  • 勾配更新に直交化ステップを適用し、相関方向への冗長な更新を防止
  • より速い収束を達成——モデルは各トレーニングステップからより多くを学習
  • より高いトレーニング安定性を提供——32T超トークン事前学習スケールで特に重要

V4-ProとV4-Flashの両方は、Muonを使用して320兆以上の多様で高品質なトークンで事前学習されており、世界知識、コード、数学、多言語テキストに対する優れたカバレッジをモデルに提供しています。


3つの推論努力モード:アーキテクチャと推論の融合

このアーキテクチャは柔軟な3モードの推論システムを実現します:

モード 動作 ユースケース
Non-think 明示的な思考の連鎖なし 高速クエリ、単純なタスク
Think High 制御された思考の連鎖 複雑な推論、計画
Think Max 拡張された徹底的な推論 競技数学、フロンティアコーディング

Think Maxが適切に機能するには最低384Kトークンのコンテキストウィンドウが必要です(モデルは完全な推論トレースのためにスペースが必要です)。これはV4の100万トークン制限内で簡単に利用可能です。


DeepSeek V3.2のアーキテクチャとの比較

DeepSeek-V3.2は671B総パラメータ/37Bアクティブパラメータと異なるアテンションスキームを使用していました。V4への移行では:

  • 総パラメータはほぼ3倍に(671B → Proでは1.6T)
  • アクティブパラメータは37B → 49Bに増加
  • 100万トークンコンテキストでKVキャッシュが10分の1に削減
  • トークンあたりの計算量が約73%削減
  • 新しいオプティマイザ(MuonとAdamWバリアント)
  • 新しいトレーニングパイプライン(2段階エキスパート統合)

スケールでAIエージェントを動かすFramia.proなどのプラットフォームにとって、こうしたアーキテクチャ効率の改善はコスト削減、レスポンス高速化、そしてより強力なクリエイティブワークフローに直結します。


まとめ

DeepSeek V4のアーキテクチャは、MoEスパース性、ハイブリッドアテンション圧縮、多様体制約残差接続、そして高度なオプティマイザを慎重に組み合わせた設計です。これらのイノベーションが組み合わさることで、100万トークンのコンテキストは理論的に可能なだけでなく、実用的にデフォルトとなり——世界中の開発者、研究者、企業がアクセスできるコストで実現されています。