DeepSeek V4 モデルカード: 開発者向け完全テクニカルリファレンス

DeepSeek V4の完全なモデルカード:仕様・APIリファレンス・料金・ベンチマーク比較・ローカルデプロイガイド、V4-ProおよびV4-Flashの技術情報を網羅。

by Framia

DeepSeek V4 モデルカード: 開発者向け完全テクニカルリファレンス

DeepSeek V4 モデルカードは、開発者が V4 シリーズを理解・デプロイするために必要なすべての情報を集約しています。本リファレンスでは、V4-Pro と V4-Flash の完全な技術仕様、アクセス方法、既知の制限事項、および利用ガイドラインを網羅しています。


モデル概要

フィールド DeepSeek-V4-Pro DeepSeek-V4-Flash
モデル ID deepseek-v4-pro deepseek-v4-flash
開発者 DeepSeek-AI(杭州深度求索人工智能基礎技術研究有限公司)
リリース日 2026年4月24日(プレビュー)
ライセンス MIT License
モデルタイプ デコーダーのみの Transformer、MoE
アーキテクチャ ハイブリッドアテンション(CSA + HCA)+ mHC
総パラメータ数 1.6T 284B
アクティブパラメータ数 49B 13B
コンテキスト長 1,000,000 トークン 1,000,000 トークン
精度 FP4 + FP8 混合 FP4 + FP8 混合
ダウンロードサイズ 約 865 GB 約 160 GB

HuggingFace リポジトリ一覧

リポジトリ タイプ URL
DeepSeek-V4-Pro インストラクト(RLHF 調整済み) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base 事前学習ベース huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash インストラクト(RLHF 調整済み) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base 事前学習ベース huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API リファレンス

エンドポイント

  • ベース URL: https://api.deepseek.com/v1
  • チャット補完: POST /chat/completions
  • 互換フォーマット: OpenAI ChatCompletions API、Anthropic Messages API

モデル名(API)

  • deepseek-v4-pro — フル機能のフラッグシップモデル
  • deepseek-v4-flash — 高速かつコスト効率に優れたモデル

⚠️ 非推奨(2026年7月24日に廃止予定): deepseek-chatdeepseek-reasoner

料金

モデル 入力 出力
deepseek-v4-flash $0.14 / 100万トークン $0.28 / 100万トークン
deepseek-v4-pro $1.74 / 100万トークン $3.48 / 100万トークン

アーキテクチャの詳細

ハイブリッドアテンションシステム

レイヤータイプ メカニズム 目的
直近トークン層 標準アテンション 近傍コンテキストの完全精度処理
中距離トークン層 圧縮スパースアテンション(CSA) 中距離コンテキストへの効率的なアクセス
長距離トークン層 高度圧縮アテンション(HCA) 遠距離履歴のコンパクトな表現

V3.2 との効率比較(コンテキスト長 100 万トークン時):

  • FLOPs:V3.2 の 27%(73% 削減)
  • KV キャッシュ:V3.2 の 10%(90% 削減)

学習上の革新点

革新点 説明
オプティマイザ Muon(AdamW を置き換え)
残差接続 mHC(多様体制約ハイパー接続)
事前学習データ 32T 以上の多様なトークン
ポスト学習ステージ 1 SFT + RL(GRPO)による専門家特化
ポスト学習ステージ 2 オンポリシー蒸留による統合

推論モード

モード API パラメータ 思考バジェット コンテキスト要件
非思考モード "thinking": {"type": "disabled"} なし 標準
思考(高)モード "thinking": {"type": "enabled", "budget_tokens": N} ユーザー定義 標準
思考(最大)モード 特殊システムプロンプト + "thinking": {"type": "max"} 拡張 384K 以上のトークン推奨

推奨サンプリングパラメータ

{
  "temperature": 1.0,
  "top_p": 1.0
}

ベンチマーク比較

V4-Pro-Max vs 最前線モデル

ベンチマーク V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87.5% 89.1% 87.5% 91.0%
GPQA Diamond 90.1% 91.3% 93.0% 94.3%
HLE 37.7% 40.0% 39.8% 44.4%
LiveCodeBench 93.5% 88.8% N/A 91.7%
Codeforces 3206 N/A 3168 3052
SWE-bench Verified 80.6% 80.8% N/A 80.6%
SWE-bench Pro 55.4% 57.3% 57.7% 54.2%
Terminal Bench 2.0 67.9% 65.4% 75.1% 68.5%
MRCR 1M 83.5% 92.9% N/A 76.3%
CorpusQA 1M 62.0% 71.7% N/A 53.8%

ローカルデプロイ参照

構成 ストレージ VRAM 最小 GPU 構成
V4-Flash(フル) 160 GB 約 160 GB 2× H100 80GB
V4-Flash(Q4 量子化) 約 80 GB 約 80 GB RTX 5090
V4-Pro(フル) 865 GB 約 865 GB 16× H100 80GB
V4-Pro(Q4 量子化) 約 200〜400 GB 約 200〜400 GB 4〜8× H100 80GB

チャットテンプレート

DeepSeek V4 は標準の HuggingFace Jinja チャットテンプレートを使用しません。各リポジトリの encoding/ フォルダにあるカスタムエンコードスクリプトを使用してください。

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# オプション: "no_think", "thinking", "max_thinking"

既知の制限事項

  • テキストのみ対応(リリース時): 2026年4月プレビューリリースでは、ネイティブの画像・音声・動画の理解機能なし
  • プレビュー版: エッジケースが存在する可能性があります。最新情報は公式アカウントをご確認ください
  • Think Max のコンテキスト要件: 最適なパフォーマンスには 384K 以上のトークンコンテキストウィンドウが必要
  • 大容量ダウンロード: V4-Pro は 865 GB のため、ローカルデプロイには十分な帯域幅とストレージが必要
  • チャットテンプレート: 非標準エンコーディングのため、標準 HuggingFace パイプラインツールではなくリポジトリ提供スクリプトが必要

お問い合わせとサポート

  • 公式 Twitter: @deepseek_ai
  • GitHub: github.com/deepseek-ai
  • HuggingFace: huggingface.co/deepseek-ai
  • API ドキュメント: api-docs.deepseek.com
  • メール: service@deepseek.com
  • Web チャット: chat.deepseek.com

DeepSeek V4 の機能を統合した Framia.pro のようなプラットフォーム上で開発する方にとって、このモデルカードはすべての統合判断における権威ある技術リファレンスです。


引用

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}