如何在本地运行 DeepSeek V4:硬件要求与安装指南
在本地运行 DeepSeek V4,可获得完整的隐私保护、无需承担按 Token 计费的 API 费用,并能全面掌控推理参数。V4-Pro 和 V4-Flash 均为 MIT 开源许可的开放权重模型,可从 HuggingFace 免费下载。以下是在自有硬件上运行所需了解的全部内容。
本地部署还是使用 API?
在开始配置之前,请先考虑您的使用场景:
| 考量因素 | 本地部署 | API |
|---|---|---|
| 成本(大规模使用) | ✅ 更低(硬件成本可摊销) | ❌ 按 Token 收费 |
| 隐私保护 | ✅ 完全自主 | ❌ 数据发送至 DeepSeek |
| 配置复杂度 | ❌ 较高 | ✅ 无需配置 |
| 延迟 | ✅ 无网络往返 | ❌ 依赖网络 |
| 硬件需求 | ❌ 较高 | ✅ 无需任何硬件 |
| 最新模型版本 | ❌ 手动更新 | ✅ 自动更新 |
本地部署最适合:企业级隐私合规需求、GPU 成本低于 API 定价的大规模生产环境,以及研究/微调工作流。
硬件要求
DeepSeek-V4-Flash(284B / 活跃参数 13B)
完整精度(FP8 + FP4 混合):
- 下载大小:约 160 GB
- 所需 VRAM:约 160 GB
- 推荐 GPU:2× NVIDIA H100 80GB,或 2× H200,或 4× A100 40GB
量化版本(社区 GGUF/GPTQ):
- 大小:约 80 GB(4 位量化)
- 所需 VRAM:约 80 GB
- 可行配置:1× NVIDIA RTX 5090,或 2× RTX 4090(各 24GB = 48GB — 单卡不够,需 CPU 卸载)
- 配合 CPU 卸载:RTX 5090 + 64 GB 以上系统内存
DeepSeek-V4-Pro(1.6T / 活跃参数 49B)
完整精度(FP8 + FP4 混合):
- 下载大小:约 865 GB
- 所需 VRAM:约 865 GB
- 推荐集群:16× NVIDIA H100 80GB,或同等配置
- 最低可行:优化部署下 12× H100 80GB
量化版本(社区构建):
- 大小:约 200–400 GB(4 位或 8 位量化)
- 所需 VRAM:约 200–400 GB
- 可行配置:4–8× H100 80GB,或 8–16× A100 40GB
客观评估: V4-Pro 的本地部署仅对拥有大规模 GPU 基础设施的组织切实可行。V4-Flash 才是个人和小型团队的可行选择。
第一步:下载模型权重
使用 HuggingFace CLI(推荐)
# 安装 CLI
pip install huggingface_hub
# 下载 V4-Flash instruct 模型(约 160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/DeepSeek-V4-Flash \
--resume-download
# 下载 V4-Flash Base(可选,用于微调)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
--local-dir ./models/DeepSeek-V4-Flash-Base \
--resume-download
--resume-download 参数对于这类大体积下载至关重要——它支持断点续传,无需从头开始。
从 ModelScope 下载(国内更快)
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash
第二步:配置推理环境
DeepSeek V4 的聊天模板需要自定义编码脚本。克隆模型的推理工具:
# 仅克隆仓库中的推理文件夹
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo
安装依赖:
pip install transformers torch accelerate
第三步:运行基础推理
使用提供的编码脚本:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch
model_path = "./models/DeepSeek-V4-Flash"
# 加载 tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)
# 加载模型(多 GPU 自动设备映射)
model = transformers.AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto", # 自动分配至可用 GPU
torch_dtype=torch.float8_e4m3fn,
trust_remote_code=True
)
# 编码对话
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to reverse a linked list."}
]
# 非思考模式
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
# 生成
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=2048,
temperature=1.0,
top_p=1.0,
do_sample=True
)
response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))
第四步:使用社区量化版本(llama.cpp / Ollama)
若硬件资源有限,社区提供的量化版本可大幅降低运行门槛:
使用 Ollama(最简便)
# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# 拉取社区量化的 V4-Flash(在 Ollama 库中查看可用版本)
ollama pull deepseek-v4-flash:q4_k_m
# 运行
ollama run deepseek-v4-flash:q4_k_m
使用 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8
# 从 HuggingFace 社区仓库下载 GGUF 量化版 V4-Flash
# 然后运行:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
-n 2048 \
--ctx-size 8192 \
-p "You are a helpful assistant."
推荐采样参数
DeepSeek 官方推荐:
temperature = 1.0
top_p = 1.0
使用 Think Max 模式时,请确保上下文窗口设置为至少 384K Token。
性能参考
| 硬件 | 模型 | 吞吐量(估计) |
|---|---|---|
| 2× H100 80GB | V4-Flash | 约 40–80 Token/秒 |
| 4× A100 40GB | V4-Flash | 约 20–40 Token/秒 |
| 8× H100 80GB | V4-Flash | 约 100–150 Token/秒 |
| 16× H100 80GB | V4-Pro | 约 15–30 Token/秒 |
| RTX 5090(量化) | V4-Flash Q4 | 约 5–15 Token/秒 |
以上为粗略估计——实际吞吐量取决于上下文长度、批量大小及框架优化情况。
企业级隐私优势
对于处理医疗档案、法律文件、金融数据等敏感信息的企业而言,本地部署 DeepSeek V4 意味着数据完全不会离开自有基础设施。与基于 API 的服务不同,不存在数据留存、第三方服务器日志记录或向外部 API 传输专有信息的合规风险。
这对 Framia.pro 等企业级平台客户尤为重要——他们需要 AI 驱动的创意工具,同时对数据主权有严格要求。
总结
在双 H100 或高端量化硬件上本地运行 DeepSeek V4-Flash 完全可行。V4-Pro 需要较大规模的 GPU 基础设施,但其开源能力无可匹敌。MIT 许可证意味着您对部署拥有完全的控制权——这对于隐私敏感型和大规模使用场景而言是决定性优势。