DeepSeek V4をローカルで動かす方法:ハードウェア要件とセットアップガイド
DeepSeek V4をローカルで実行することで、完全なプライバシー保護、トークンごとのAPIコスト不要、そして推論設定の完全制御が可能になります。V4-ProとV4-Flashはいずれも MITライセンスのオープンウェイトモデルであり、HuggingFaceから無料でダウンロードできます。自分のハードウェアで動かすために必要なことをすべてご紹介します。
ローカル実行かAPIかを選ぶ
セットアップに入る前に、ユースケースを検討しましょう:
| 要素 | ローカル展開 | API |
|---|---|---|
| コスト(大量利用) | ✅ 低い(ハードウェアコスト分散) | ❌ トークンごとの料金 |
| プライバシー | ✅ 完全 | ❌ データがDeepSeekに送信される |
| セットアップの複雑さ | ❌ 高い | ✅ なし |
| レイテンシ | ✅ ネットワーク往復なし | ❌ ネットワーク依存 |
| 必要なハードウェア | ❌ 大規模 | ✅ 不要 |
| 最新モデルバージョン | ❌ 手動更新 | ✅ 自動 |
ローカル展開が最適なケース:エンタープライズのプライバシー要件、GPU コストがAPI料金を下回る大量本番環境、そして研究・ファインチューニングワークフロー。
ハードウェア要件
DeepSeek-V4-Flash(284B / アクティブ13B)
フル精度(FP8 + FP4 混合):
- ダウンロードサイズ:約160 GB
- 必要VRAM:約160 GB
- 推奨GPU:2× NVIDIA H100 80GB、または 2× H200、または 4× A100 40GB
量子化(コミュニティ GGUF/GPTQ):
- サイズ:約80 GB(4ビット量子化)
- 必要VRAM:約80 GB
- 実現可能な環境:1× NVIDIA RTX 5090、または 2× RTX 4090(各24GB = 合計48GB — 単独では不十分、CPUオフロードが必要)
- CPUオフロードあり:RTX 5090 + 64GB以上のシステムRAM
DeepSeek-V4-Pro(1.6T / アクティブ49B)
フル精度(FP8 + FP4 混合):
- ダウンロードサイズ:約865 GB
- 必要VRAM:約865 GB
- 推奨クラスター:16× NVIDIA H100 80GB、または同等構成
- 最低限の構成:最適化サービングを利用した 12× H100 80GB
量子化(コミュニティビルド):
- サイズ:約200〜400 GB(4ビットまたは8ビット量子化)
- 必要VRAM:約200〜400 GB
- 実現可能な環境:4〜8× H100 80GB、または 8〜16× A100 40GB
正直な評価: V4-Proのローカル展開は、大規模なGPUインフラを持つ組織にのみ現実的です。V4-Flashが個人や小規模チーム向けの現実的な選択肢です。
ステップ1:モデルの重みをダウンロードする
HuggingFace CLIの使用(推奨)
# CLIのインストール
pip install huggingface_hub
# V4-Flash instructモデルをダウンロード(約160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/DeepSeek-V4-Flash \
--resume-download
# V4-Flash Baseをダウンロード(オプション、ファインチューニング用)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
--local-dir ./models/DeepSeek-V4-Flash-Base \
--resume-download
--resume-download フラグはこれほど大きなダウンロードでは必須です — 中断しても進捗を失わずに再開できます。
ModelScopeから(中国国内では高速)
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash
ステップ2:推論環境のセットアップ
DeepSeek V4はチャットテンプレート用のカスタムエンコーディングスクリプトが必要です。モデルの推論ツールをクローンしてください:
# リポジトリから推論フォルダのみをクローン
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo
依存関係のインストール:
pip install transformers torch accelerate
ステップ3:基本的な推論を実行する
提供されたエンコーディングスクリプトを使用します:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch
model_path = "./models/DeepSeek-V4-Flash"
# トークナイザーの読み込み
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)
# モデルの読み込み(マルチGPU自動デバイスマッピング)
model = transformers.AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto", # 利用可能なGPUに自動分散
torch_dtype=torch.float8_e4m3fn,
trust_remote_code=True
)
# 会話のエンコード
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to reverse a linked list."}
]
# 非思考モード
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
# 生成
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=2048,
temperature=1.0,
top_p=1.0,
do_sample=True
)
response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))
ステップ4:コミュニティ量子化版の使用(llama.cpp / Ollama)
ハードウェアが限られている場合、コミュニティが提供する量子化版で要件を大幅に削減できます:
Ollamaの使用(最も簡単)
# Ollamaのインストール
curl -fsSL https://ollama.ai/install.sh | sh
# コミュニティ量子化のV4-Flashを取得(利用可能なバージョンはOllamaライブラリで確認)
ollama pull deepseek-v4-flash:q4_k_m
# 実行
ollama run deepseek-v4-flash:q4_k_m
llama.cppの使用
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8
# HuggingFaceコミュニティリポジトリからGGUF量子化V4-Flashをダウンロード
# その後、以下を実行:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
-n 2048 \
--ctx-size 8192 \
-p "You are a helpful assistant."
推奨サンプリングパラメーター
DeepSeekが公式に推奨する値:
temperature = 1.0
top_p = 1.0
Think Maxモードでは、コンテキストウィンドウを少なくとも 384Kトークン に設定してください。
パフォーマンスの目安
| ハードウェア | モデル | スループット(概算) |
|---|---|---|
| 2× H100 80GB | V4-Flash | 約40〜80 トークン/秒 |
| 4× A100 40GB | V4-Flash | 約20〜40 トークン/秒 |
| 8× H100 80GB | V4-Flash | 約100〜150 トークン/秒 |
| 16× H100 80GB | V4-Pro | 約15〜30 トークン/秒 |
| RTX 5090(量子化) | V4-Flash Q4 | 約5〜15 トークン/秒 |
これらはあくまで概算値です。実際のスループットはコンテキスト長、バッチサイズ、フレームワークの最適化によって異なります。
エンタープライズ向けプライバシーのメリット
医療記録、法的文書、財務データなど機密性の高いデータを扱うエンタープライズにとって、DeepSeek V4のローカル展開はデータが自社インフラの外に出ないことを保証します。APIベースのサービスとは異なり、データ保持、第三者サーバーへのログ記録、外部APIへの機密情報送信に関するコンプライアンス上の懸念がありません。
これは、データ主権の心配なくAI駆動のクリエイティブツールを必要とするエンタープライズ顧客を持つ Framia.pro のようなプラットフォームに特に重要です。
まとめ
DeepSeek V4-Flashのローカル実行は、デュアルH100構成または高性能量子化ハードウェアで十分に実現可能です。V4-Proは大規模なGPUインフラが必要ですが、オープンソースとして比類のない能力を提供します。MITライセンスにより、展開を完全に自社管理できます — プライバシーが重要なユースケースや大量利用の場面で決定的な優位性となります。