DeepSeek V4 のトレーニング:モデルはどのように構築されたか
DeepSeek V4 がどのように訓練されたかを理解することで、そのパフォーマンスの背景にある理由、そしてコーディング・推論・長文コンテキスト処理において期待を上回る結果をもたらした設計上・データ上の判断が明らかになります。本記事では、V4 の事前学習、事後学習、そして前世代から本モデルを差別化する主要なイノベーションについて解説します。
事前学習:スケールとデータ
データセットサイズ:32兆トークン以上
V4-Pro と V4-Flash はともに、32兆を超えるトークンの多様かつ高品質なデータで事前学習されています。これは DeepSeek-V3 の推定事前学習トークン数(約18兆)のほぼ2倍であり、トレーニングコンピュートとデータキュレーションへの大規模な投資を示しています。
学習コーパスの構成:
- 自然言語 — 数十言語のウェブテキスト、書籍、記事
- コード — あらゆる主要プログラミング言語のソースコード
- 数学 — 形式的証明、競技問題、教科書
- 科学文献 — STEM 分野にわたる研究論文
- 多言語コンテンツ — MMMLU 90.3% が実証する豊富な多言語対応
データ量がなぜ重要か
学習データの規模とモデル性能の関係は線形ではありません。しかし最先端のスケールにおいては、高品質で多様なデータを増やすことが、知識の幅・事実の正確性・汎化能力を一貫して向上させます。
V4-Pro-Base の SimpleQA-Verified スコアが劇的に向上した事実(55.2% 対 V3.2 の 28.3%)は、データ規模の増大と改善されたデータキュレーションの組み合わせを反映しています。モデルはより多くの世界知識を吸収したのです。
Muon オプティマイザー
DeepSeek は V4 で、標準的な AdamW オプティマイザーを Muon オプティマイザー に置き換えました。
Muon の仕組み
標準的な Adam 系オプティマイザーは、勾配の方向と大きさに基づいてパラメーターを更新します。Muon はこれに直交化ステップを加えます:勾配更新を適用する前に、現在の更新と過去の更新方向の相関を除去します。
その結果:
- 収束の高速化: 各トレーニングステップからより多くの有用な情報を抽出
- 安定性の向上: 直交化された更新は振動や発散を起こしにくい
- スケーラビリティの改善: Muon の安定性は V4 の規模(1.6T パラメーター)において特に価値がある
より効率的なパラメーター空間の探索と捉えることができます:Muon は各勾配更新が真に新しい方向へ進むことを保証することで、冗長なステップを防ぎます。
事前学習中のアーキテクチャイノベーション
ハイブリッドアテンションアーキテクチャ(CSA + HCA)
Multi-head Latent Attention(MLA)を使用していた V3.2 とは異なり、V4 はハイブリッドアテンションアーキテクチャをゼロから事前学習しています。つまりモデルの内部表現は、最初から CSA + HCA メカニズムによって形成されます。旧アーキテクチャへの後付けではありません。
V4 が 100万トークンのコンテキストをより自然に扱える理由はここにあります:事前学習中に習得されたアテンションパターンが、階層的な圧縮構造に最適化されているからです。
多様体制約付きハイパー接続(mHC)
mHC はネットワーク全体の標準残差接続を置き換えます。最初から mHC を使って事前学習することで、モデルの重み行列は安定したシグナル伝播を促進する構造的に制約された空間内で発展します。
実際的な効果:1.6T パラメーターのモデルを 32T 以上のトークンで訓練することが、標準アーキテクチャをこのサイズにスケールしようとする際に生じる壊滅的な不安定性なしに実現できます。
事後学習:2段階パイプライン
ステージ1:独立エキスパート育成
MoE アーキテクチャの個々のエキスパートはドメイン特化のために独立して訓練されます:
教師あり微調整(SFT):
- 各エキスパートのドメインにおける高品質なラベル付きサンプル
- 各専門分野での正確な指示追従をモデルに習得させる
- コーディング、数学、科学、言語、一般知識、安全性をカバー
GRPO による強化学習:
- Group Relative Policy Optimization は、サンプルグループに対してより優れた応答を生成することでモデルに報酬を与える
- 各ドメイン/エキスパートに独立して適用
- 別途の報酬モデルなしに、人間の好みに沿ったエキスパート行動を形成
ステージ2:統合モデルの統合
ステージ1の後、独立訓練されたエキスパートはオンポリシー蒸留を通じて統合モデルに統合されます:
- ステージ1の特化モデルが多様なタスクで出力を生成
- 最終モデルはこれらの出力をマッチ(蒸留)するように訓練
- ルーティングメカニズムが各タスクに適切なエキスパートを活性化することを学習
この統合フェーズが V4-Pro に非常に異なるドメインにわたる深い能力という珍しい組み合わせをもたらしています。各エキスパートは真に特化されており、ルーターはそれらを適切に活用することを学習しています。
ハードウェア:Huawei Ascend 950PR
V4 の学習に関する最も重要な事実の一つはハードウェアです:
V4 は Huawei Ascend 950PR チップで訓練されました — NVIDIA の A100 や H100 ではありません。
これにはいくつかの含意があります:
技術面: Huawei Ascend 950PR は大規模モデルに対して競争力のあるトレーニングスループットを持つ高性能 AI アクセラレーターです。V4 の結果は、このハードウェアでフロンティア AI トレーニングが達成可能であることを示しています。
地政学面: 米国の輸出規制により、中国企業は NVIDIA の最先端チップへのアクセスが制限されています。DeepSeek が Ascend ハードウェアで V4 を学習することに成功したことは、中国の国内 AI チップ能力が多くの人が想定していたよりも高いことを示しています。
戦略面: 国内ハードウェア上に構築することで、DeepSeek(ひいては中国の AI エコシステム)はフロンティア AI 開発における米国管理のサプライチェーンへの依存を低減しています。
事後学習のアライメント
2段階の RLHF パイプラインの後、V4 は安全性に焦点を当てたアライメント調整を受けます:
- 安全性に関連するシナリオをカバーする追加 SFT サンプル
- 指示追従に組み込まれた憲法スタイルのガイドライン
- V4 がサポートする言語にわたる多言語安全アライメント
DeepSeek の安全性事後学習の正確な範囲は公開技術レポートで完全には文書化されていませんが、業界標準の慣行(および DeepSeek の以前のモデルでの実績)から、一般的な有害なユースケースの包括的なカバレッジが示唆されます。
トレーニングコスト:効率性の話
DeepSeek は以前から、西側競合他社よりも大幅に低い報告トレーニングコストでフロンティアの結果を達成することで注目を集めてきました。V4 のトレーニングコストは公式には開示されていませんが、いくつかの要因が継続的な効率優位性を示唆しています:
- Muon オプティマイザー: 無駄な勾配ステップの削減
- mHC の安定性: トレーニング不安定性によるコンピュート損失の削減
- MoE のスパース性: 1.6T ではなくトークンあたり 49B のアクティブパラメーター
- Ascend 950PR の最適化: このタイプのトレーニングのために専用設計
アーキテクチャとオプティマイザーの改善の組み合わせにより、V4 は以前のアプローチよりもトレーニング FLOP あたりの能力を多く引き出します。
V3.2 から V4 へ:トレーニングの変更点
| トレーニング側面 | V3.2 | V4 |
|---|---|---|
| オプティマイザー | AdamW 変種 | Muon |
| 残差接続 | 標準 | mHC |
| アテンションメカニズム | MLA | ハイブリッド(CSA + HCA) |
| 事前学習トークン数 | 約18兆 | 32兆以上 |
| 事後学習パイプライン | SFT + RL | 2段階:特化 + 統合 |
| ハードウェア | NVIDIA(H800相当) | Huawei Ascend 950PR |
この分野への示唆
V4 のトレーニング方法論 — 特に Muon オプティマイザー、mHC、2段階事後学習 — は技術レポートにオープンに文書化されており、研究コミュニティが研究・再現できる形で公開されています。DeepSeek のここでの透明性は、そのリサーチファーストの文化を反映しています。
フロンティア AI 能力を統合するプラットフォーム(Framia.pro など)は、この知識共有文化から恩恵を受けています:これらのトレーニング技術がエコシステム全体で複製・改良されるにつれ、AI モデルの品質の上限が上昇し続け、あらゆる下流アプリケーションが向上します。
まとめ
DeepSeek V4 は、前例のないデータ規模(32兆以上のトークン)、アーキテクチャイノベーション(ハイブリッドアテンション、mHC)、オプティマイザーの改善(Muon)、そして革新的な2段階事後学習パイプラインの組み合わせによって構築されました。その結果は、中国国内のハードウェアスタック上でフロンティアクラスのパフォーマンスを達成するモデルです。これは AI 開発における技術的・戦略的なマイルストーンとして V4 を確立する画期的な成果です。