DeepSeek V4 モデルカード: 完全技術仕様書（2026年版）

DeepSeek V4の完全なモデルカード：仕様・APIリファレンス・料金・ベンチマーク比較・ローカルデプロイガイド、V4-ProおよびV4-Flashの技術情報を網羅。

DeepSeek V4 モデルカード: 開発者向け完全テクニカルリファレンス

DeepSeek V4 モデルカードは、開発者が V4 シリーズを理解・デプロイするために必要なすべての情報を集約しています。本リファレンスでは、V4-Pro と V4-Flash の完全な技術仕様、アクセス方法、既知の制限事項、および利用ガイドラインを網羅しています。

モデル概要

フィールド	DeepSeek-V4-Pro	DeepSeek-V4-Flash
モデル ID	`deepseek-v4-pro`	`deepseek-v4-flash`
開発者	DeepSeek-AI（杭州深度求索人工智能基礎技術研究有限公司）
リリース日	2026年4月24日（プレビュー）
ライセンス	MIT License
モデルタイプ	デコーダーのみの Transformer、MoE
アーキテクチャ	ハイブリッドアテンション（CSA + HCA）+ mHC
総パラメータ数	1.6T	284B
アクティブパラメータ数	49B	13B
コンテキスト長	1,000,000 トークン	1,000,000 トークン
精度	FP4 + FP8 混合	FP4 + FP8 混合
ダウンロードサイズ	約 865 GB	約 160 GB

HuggingFace リポジトリ一覧

リポジトリ	タイプ	URL
DeepSeek-V4-Pro	インストラクト（RLHF 調整済み）	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	事前学習ベース	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	インストラクト（RLHF 調整済み）	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	事前学習ベース	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API リファレンス

エンドポイント

ベース URL: https://api.deepseek.com/v1
チャット補完: POST /chat/completions
互換フォーマット: OpenAI ChatCompletions API、Anthropic Messages API

モデル名（API）

deepseek-v4-pro — フル機能のフラッグシップモデル
deepseek-v4-flash — 高速かつコスト効率に優れたモデル

⚠️ 非推奨（2026年7月24日に廃止予定）： deepseek-chat、deepseek-reasoner

料金

モデル	入力	出力
deepseek-v4-flash	$0.14 / 100万トークン	$0.28 / 100万トークン
deepseek-v4-pro	$1.74 / 100万トークン	$3.48 / 100万トークン

アーキテクチャの詳細

ハイブリッドアテンションシステム

レイヤータイプ	メカニズム	目的
直近トークン層	標準アテンション	近傍コンテキストの完全精度処理
中距離トークン層	圧縮スパースアテンション（CSA）	中距離コンテキストへの効率的なアクセス
長距離トークン層	高度圧縮アテンション（HCA）	遠距離履歴のコンパクトな表現

V3.2 との効率比較（コンテキスト長 100 万トークン時）：

FLOPs：V3.2 の 27%（73% 削減）
KV キャッシュ：V3.2 の 10%（90% 削減）

学習上の革新点

革新点	説明
オプティマイザ	Muon（AdamW を置き換え）
残差接続	mHC（多様体制約ハイパー接続）
事前学習データ	32T 以上の多様なトークン
ポスト学習ステージ 1	SFT + RL（GRPO）による専門家特化
ポスト学習ステージ 2	オンポリシー蒸留による統合

推論モード

モード	API パラメータ	思考バジェット	コンテキスト要件
非思考モード	`"thinking": {"type": "disabled"}`	なし	標準
思考（高）モード	`"thinking": {"type": "enabled", "budget_tokens": N}`	ユーザー定義	標準
思考（最大）モード	特殊システムプロンプト + `"thinking": {"type": "max"}`	拡張	384K 以上のトークン推奨

推奨サンプリングパラメータ

{
  "temperature": 1.0,
  "top_p": 1.0
}

ベンチマーク比較

V4-Pro-Max vs 最前線モデル

ベンチマーク	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87.5%	89.1%	87.5%	91.0%
GPQA Diamond	90.1%	91.3%	93.0%	94.3%
HLE	37.7%	40.0%	39.8%	44.4%
LiveCodeBench	93.5%	88.8%	N/A	91.7%
Codeforces	3206	N/A	3168	3052
SWE-bench Verified	80.6%	80.8%	N/A	80.6%
SWE-bench Pro	55.4%	57.3%	57.7%	54.2%
Terminal Bench 2.0	67.9%	65.4%	75.1%	68.5%
MRCR 1M	83.5%	92.9%	N/A	76.3%
CorpusQA 1M	62.0%	71.7%	N/A	53.8%

ローカルデプロイ参照

構成	ストレージ	VRAM	最小 GPU 構成
V4-Flash（フル）	160 GB	約 160 GB	2× H100 80GB
V4-Flash（Q4 量子化）	約 80 GB	約 80 GB	RTX 5090
V4-Pro（フル）	865 GB	約 865 GB	16× H100 80GB
V4-Pro（Q4 量子化）	約 200〜400 GB	約 200〜400 GB	4〜8× H100 80GB

チャットテンプレート

DeepSeek V4 は標準の HuggingFace Jinja チャットテンプレートを使用しません。各リポジトリの encoding/ フォルダにあるカスタムエンコードスクリプトを使用してください。

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# オプション: "no_think", "thinking", "max_thinking"

既知の制限事項

テキストのみ対応（リリース時）： 2026年4月プレビューリリースでは、ネイティブの画像・音声・動画の理解機能なし
プレビュー版： エッジケースが存在する可能性があります。最新情報は公式アカウントをご確認ください
Think Max のコンテキスト要件： 最適なパフォーマンスには 384K 以上のトークンコンテキストウィンドウが必要
大容量ダウンロード： V4-Pro は 865 GB のため、ローカルデプロイには十分な帯域幅とストレージが必要
チャットテンプレート： 非標準エンコーディングのため、標準 HuggingFace パイプラインツールではなくリポジトリ提供スクリプトが必要

お問い合わせとサポート

公式 Twitter: @deepseek_ai
GitHub: github.com/deepseek-ai
HuggingFace: huggingface.co/deepseek-ai
API ドキュメント: api-docs.deepseek.com
メール: service@deepseek.com
Web チャット: chat.deepseek.com

DeepSeek V4 の機能を統合した Framia.pro のようなプラットフォーム上で開発する方にとって、このモデルカードはすべての統合判断における権威ある技術リファレンスです。

引用

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}