DeepSeek V4のパラメータ解説:総数1.6兆、アクティブ49B
DeepSeekがV4-Proのパラメータ総数1.6兆を発表したとき、多くの人が驚きを隠せませんでした。現存するほとんどのオープンウェイトモデルを超える規模です。しかし重要なのはここです:1.6兆のパラメータのうち、推論時に**1トークンごとに実際に活性化されるのはわずか490億(49B)**にすぎません。
この違いこそが、DeepSeek V4を強力かつ実際に使えるものにしている核心です。
DeepSeek V4のパラメータ数一覧
| モデル | 総パラメータ数 | アクティブパラメータ数 | ダウンロードサイズ |
|---|---|---|---|
| DeepSeek-V4-Pro | 1.6兆 | 490億 | 約865 GB |
| DeepSeek-V4-Flash | 2,840億 | 130億 | 約160 GB |
| DeepSeek-V3.2(前世代) | 6,710億 | 370億 | 約380 GB |
比較として、V4-ProはV3.2の2倍以上の総パラメータ数を持ち、V4-FlashはV3.2の約42%のサイズ——Flashは驚くほど高性能な軽量オプションです。
「1.6兆パラメータ」とは実際どういう意味か?
パラメータとは、ニューラルネットワーク内に保存された学習済みの数値重みのことです。学習中、これらの重みは大規模なデータセット(DeepSeek V4の場合は32兆トークン以上)における予測誤差を最小化するよう調整されます。推論時には、これらの重みがあらゆる入力に対するモデルの応答を決定します。
パラメータが多いほど、一般的にモデルは:
- より多くの事実知識を蓄えられる
- より微妙な言語パターンを捉えられる
- 稀なタスクや複雑なタスクへの汎化性が高まる
1.6兆パラメータを持つV4-Proは、これまでリリースされた中で最大級のオープンウェイトモデルの一つであり、卓越した知識の幅と推論の深さを備えています。
Mixture of Experts(MoE)アーキテクチャ:なぜ49Bだけが活性化されるのか
ここからが興味深いところです。DeepSeek V4は**Mixture of Experts(MoE)**モデルです——すべてのトークンですべてのパラメータが起動する密なトランスフォーマーとは異なります。
MoEモデルでは:
- ネットワーク内に多数の専門的な「エキスパート」サブネットワークが存在する
- 各トークンに対して、ルーターがごく一部のエキスパートだけを選んで活性化する
- 選ばれたエキスパートのみが出力に貢献する
DeepSeek-V4-Proでは、ルーターが1.6兆の総パラメータのうち1トークンあたり490億パラメータを活性化します——ネットワーク全体の約3%です。これにより、1.6兆モデルの知識を、490億の計算コストで利用できます。
これがMoEモデルが、はるかに小さな密なモデルと比較して計算量をほとんど増やさずに、驚くほど高い性能を発揮できる理由です。
精度:FP4 + FP8 混合
DeepSeek V4の重みは32ビット精度では保存されていません。代わりに:
- MoEエキスパートパラメータはFP4精度(4ビット浮動小数点)を使用
- その他のほとんどのパラメータはFP8精度(8ビット浮動小数点)を使用
この混合精度アプローチにより、モデル品質への影響を最小限に抑えながらメモリ消費量を大幅に削減し、現実的なハードウェアでの実行が可能になります(ローカル展開ガイドで詳しく説明しています)。
ベースモデル(V4-Pro-BaseおよびV4-Flash-Base)はFP8混合精度を全体的に使用します。
V4-Proのパラメータを競合他社と比較する
| モデル | 総パラメータ | アクティブパラメータ | オープンウェイト |
|---|---|---|---|
| DeepSeek-V4-Pro | 1.6兆 | 490億 | ✅ あり(MIT) |
| DeepSeek-V3.2 | 6,710億 | 370億 | ✅ あり |
| GPT-5.5 | 非公開 | 非公開 | ❌ なし |
| Claude Opus 4.7 | 非公開 | 非公開 | ❌ なし |
| Gemini-3.1-Pro | 非公開 | 非公開 | ❌ なし |
最大の強み:DeepSeek V4-Proは現在入手可能な最大のオープンウェイトモデルであり、クローズドな競合他社とは異なり、自分でモデルを検査・ファインチューニング・デプロイできます。
DeepSeek V4-Flashの2,840億パラメータが意味すること
V4-Flash(総数2,840億/アクティブ130億)も侮れません。1トークンあたり130億のアクティブパラメータは、Llama 3.3 70Bのような中規模の密なモデルに匹敵する計算コストです——しかし2,840億総数システムの知識とアーキテクチャの進歩を持ち合わせています。
実際には:
- Flashは単純・中程度の複雑さのタスクでProに近い性能を発揮する
- より大きな「思考予算」(Think Maxモード)を与えると、旧来の最前線モデルに匹敵する推論スコアを達成する
- FlashはGPUメモリを大幅に節約し、API経由で約10倍低コストで利用できる
Framia.proなどのプラットフォームで大量処理アプリケーションを構築する開発者にとって、Flashのパラメータ効率は、コスト効率が高くスループットの高いクリエイティブAIワークロードに最適です。
パラメータ数があなたのユースケースで重要な理由
実用的な結論:
- V4-Proを選ぶのは、最大限の知識の深さ、世界トップクラスのコーディング、複雑な長文書の推論が必要なとき、または最前線モデルとのベンチマーク比較を行うとき
- V4-Flashを選ぶのは、速度・コスト効率が必要なとき、またはコストを重視した大量APIコールを実行するとき
両モデルとも同じアーキテクチャ革新——ハイブリッドアテンション機構(CSA + HCA)、mHC、Muonオプティマイザ——を共有しており、意味のある違いはパラメータ規模と性能の上限だけです。
まとめ
DeepSeek V4-Proの1.6兆総パラメータは、現在利用可能な最も強力なオープンウェイトLLMを生み出しています——しかし真の魔法は、推論コストを現実的な水準に保つMoEアーキテクチャにあります。1トークンあたり490億のパラメータしか活性化しないため、計算コストのほんの一部で兆規模の知識を得られます。
この違いを理解することは、ローカルでモデルを実行する場合でもAPI経由でアクセスする場合でも、本番環境にDeepSeek V4を導入するすべての人にとって不可欠です。