如何在本地运行 DeepSeek V4:硬件要求与安装指南

学习如何在本地运行 DeepSeek V4-Flash 和 V4-Pro,涵盖硬件要求、下载步骤、推理配置、量化方案及性能基准。

by Framia

如何在本地运行 DeepSeek V4:硬件要求与安装指南

在本地运行 DeepSeek V4,可获得完整的隐私保护、无需承担按 Token 计费的 API 费用,并能全面掌控推理参数。V4-Pro 和 V4-Flash 均为 MIT 开源许可的开放权重模型,可从 HuggingFace 免费下载。以下是在自有硬件上运行所需了解的全部内容。


本地部署还是使用 API?

在开始配置之前,请先考虑您的使用场景:

考量因素 本地部署 API
成本(大规模使用) ✅ 更低(硬件成本可摊销) ❌ 按 Token 收费
隐私保护 ✅ 完全自主 ❌ 数据发送至 DeepSeek
配置复杂度 ❌ 较高 ✅ 无需配置
延迟 ✅ 无网络往返 ❌ 依赖网络
硬件需求 ❌ 较高 ✅ 无需任何硬件
最新模型版本 ❌ 手动更新 ✅ 自动更新

本地部署最适合:企业级隐私合规需求、GPU 成本低于 API 定价的大规模生产环境,以及研究/微调工作流。


硬件要求

DeepSeek-V4-Flash(284B / 活跃参数 13B)

完整精度(FP8 + FP4 混合):

  • 下载大小:约 160 GB
  • 所需 VRAM:约 160 GB
  • 推荐 GPU:2× NVIDIA H100 80GB,或 2× H200,或 4× A100 40GB

量化版本(社区 GGUF/GPTQ):

  • 大小:约 80 GB(4 位量化)
  • 所需 VRAM:约 80 GB
  • 可行配置:1× NVIDIA RTX 5090,或 2× RTX 4090(各 24GB = 48GB — 单卡不够,需 CPU 卸载)
  • 配合 CPU 卸载:RTX 5090 + 64 GB 以上系统内存

DeepSeek-V4-Pro(1.6T / 活跃参数 49B)

完整精度(FP8 + FP4 混合):

  • 下载大小:约 865 GB
  • 所需 VRAM:约 865 GB
  • 推荐集群:16× NVIDIA H100 80GB,或同等配置
  • 最低可行:优化部署下 12× H100 80GB

量化版本(社区构建):

  • 大小:约 200–400 GB(4 位或 8 位量化)
  • 所需 VRAM:约 200–400 GB
  • 可行配置:4–8× H100 80GB,或 8–16× A100 40GB

客观评估: V4-Pro 的本地部署仅对拥有大规模 GPU 基础设施的组织切实可行。V4-Flash 才是个人和小型团队的可行选择。


第一步:下载模型权重

使用 HuggingFace CLI(推荐)

# 安装 CLI
pip install huggingface_hub

# 下载 V4-Flash instruct 模型(约 160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# 下载 V4-Flash Base(可选,用于微调)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

--resume-download 参数对于这类大体积下载至关重要——它支持断点续传,无需从头开始。

从 ModelScope 下载(国内更快)

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

第二步:配置推理环境

DeepSeek V4 的聊天模板需要自定义编码脚本。克隆模型的推理工具:

# 仅克隆仓库中的推理文件夹
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

安装依赖:

pip install transformers torch accelerate

第三步:运行基础推理

使用提供的编码脚本:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# 加载 tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# 加载模型(多 GPU 自动设备映射)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # 自动分配至可用 GPU
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# 编码对话
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# 非思考模式
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# 生成
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

第四步:使用社区量化版本(llama.cpp / Ollama)

若硬件资源有限,社区提供的量化版本可大幅降低运行门槛:

使用 Ollama(最简便)

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取社区量化的 V4-Flash(在 Ollama 库中查看可用版本)
ollama pull deepseek-v4-flash:q4_k_m

# 运行
ollama run deepseek-v4-flash:q4_k_m

使用 llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# 从 HuggingFace 社区仓库下载 GGUF 量化版 V4-Flash
# 然后运行:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

推荐采样参数

DeepSeek 官方推荐:

temperature = 1.0
top_p = 1.0

使用 Think Max 模式时,请确保上下文窗口设置为至少 384K Token


性能参考

硬件 模型 吞吐量(估计)
2× H100 80GB V4-Flash 约 40–80 Token/秒
4× A100 40GB V4-Flash 约 20–40 Token/秒
8× H100 80GB V4-Flash 约 100–150 Token/秒
16× H100 80GB V4-Pro 约 15–30 Token/秒
RTX 5090(量化) V4-Flash Q4 约 5–15 Token/秒

以上为粗略估计——实际吞吐量取决于上下文长度、批量大小及框架优化情况。


企业级隐私优势

对于处理医疗档案、法律文件、金融数据等敏感信息的企业而言,本地部署 DeepSeek V4 意味着数据完全不会离开自有基础设施。与基于 API 的服务不同,不存在数据留存、第三方服务器日志记录或向外部 API 传输专有信息的合规风险。

这对 Framia.pro 等企业级平台客户尤为重要——他们需要 AI 驱动的创意工具,同时对数据主权有严格要求。


总结

在双 H100 或高端量化硬件上本地运行 DeepSeek V4-Flash 完全可行。V4-Pro 需要较大规模的 GPU 基础设施,但其开源能力无可匹敌。MIT 许可证意味着您对部署拥有完全的控制权——这对于隐私敏感型和大规模使用场景而言是决定性优势。