如何在本地运行 DeepSeek V4：完整部署指南（2026）

学习如何在本地运行 DeepSeek V4-Flash 和 V4-Pro，涵盖硬件要求、下载步骤、推理配置、量化方案及性能基准。

如何在本地运行 DeepSeek V4：硬件要求与安装指南

在本地运行 DeepSeek V4，可获得完整的隐私保护、无需承担按 Token 计费的 API 费用，并能全面掌控推理参数。V4-Pro 和 V4-Flash 均为 MIT 开源许可的开放权重模型，可从 HuggingFace 免费下载。以下是在自有硬件上运行所需了解的全部内容。

本地部署还是使用 API？

在开始配置之前，请先考虑您的使用场景：

考量因素	本地部署	API
成本（大规模使用）	✅ 更低（硬件成本可摊销）	❌ 按 Token 收费
隐私保护	✅ 完全自主	❌ 数据发送至 DeepSeek
配置复杂度	❌ 较高	✅ 无需配置
延迟	✅ 无网络往返	❌ 依赖网络
硬件需求	❌ 较高	✅ 无需任何硬件
最新模型版本	❌ 手动更新	✅ 自动更新

本地部署最适合：企业级隐私合规需求、GPU 成本低于 API 定价的大规模生产环境，以及研究/微调工作流。

硬件要求

DeepSeek-V4-Flash（284B / 活跃参数 13B）

完整精度（FP8 + FP4 混合）：

下载大小：约 160 GB
所需 VRAM：约 160 GB
推荐 GPU：2× NVIDIA H100 80GB，或 2× H200，或 4× A100 40GB

量化版本（社区 GGUF/GPTQ）：

大小：约 80 GB（4 位量化）
所需 VRAM：约 80 GB
可行配置：1× NVIDIA RTX 5090，或 2× RTX 4090（各 24GB = 48GB — 单卡不够，需 CPU 卸载）
配合 CPU 卸载：RTX 5090 + 64 GB 以上系统内存

DeepSeek-V4-Pro（1.6T / 活跃参数 49B）

完整精度（FP8 + FP4 混合）：

下载大小：约 865 GB
所需 VRAM：约 865 GB
推荐集群：16× NVIDIA H100 80GB，或同等配置
最低可行：优化部署下 12× H100 80GB

量化版本（社区构建）：

大小：约 200–400 GB（4 位或 8 位量化）
所需 VRAM：约 200–400 GB
可行配置：4–8× H100 80GB，或 8–16× A100 40GB

客观评估： V4-Pro 的本地部署仅对拥有大规模 GPU 基础设施的组织切实可行。V4-Flash 才是个人和小型团队的可行选择。

第一步：下载模型权重

使用 HuggingFace CLI（推荐）

# 安装 CLI
pip install huggingface_hub

# 下载 V4-Flash instruct 模型（约 160 GB）
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# 下载 V4-Flash Base（可选，用于微调）
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

--resume-download 参数对于这类大体积下载至关重要——它支持断点续传，无需从头开始。

从 ModelScope 下载（国内更快）

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

第二步：配置推理环境

DeepSeek V4 的聊天模板需要自定义编码脚本。克隆模型的推理工具：

# 仅克隆仓库中的推理文件夹
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

安装依赖：

pip install transformers torch accelerate

第三步：运行基础推理

使用提供的编码脚本：

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# 加载 tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# 加载模型（多 GPU 自动设备映射）
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # 自动分配至可用 GPU
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# 编码对话
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# 非思考模式
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# 生成
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

第四步：使用社区量化版本（llama.cpp / Ollama）

若硬件资源有限，社区提供的量化版本可大幅降低运行门槛：

使用 Ollama（最简便）

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取社区量化的 V4-Flash（在 Ollama 库中查看可用版本）
ollama pull deepseek-v4-flash:q4_k_m

# 运行
ollama run deepseek-v4-flash:q4_k_m

使用 llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# 从 HuggingFace 社区仓库下载 GGUF 量化版 V4-Flash
# 然后运行：
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

性能参考

硬件	模型	吞吐量（估计）
2× H100 80GB	V4-Flash	约 40–80 Token/秒
4× A100 40GB	V4-Flash	约 20–40 Token/秒
8× H100 80GB	V4-Flash	约 100–150 Token/秒
16× H100 80GB	V4-Pro	约 15–30 Token/秒
RTX 5090（量化）	V4-Flash Q4	约 5–15 Token/秒

以上为粗略估计——实际吞吐量取决于上下文长度、批量大小及框架优化情况。

企业级隐私优势

对于处理医疗档案、法律文件、金融数据等敏感信息的企业而言，本地部署 DeepSeek V4 意味着数据完全不会离开自有基础设施。与基于 API 的服务不同，不存在数据留存、第三方服务器日志记录或向外部 API 传输专有信息的合规风险。

这对 Framia.pro 等企业级平台客户尤为重要——他们需要 AI 驱动的创意工具，同时对数据主权有严格要求。

总结

在双 H100 或高端量化硬件上本地运行 DeepSeek V4-Flash 完全可行。V4-Pro 需要较大规模的 GPU 基础设施，但其开源能力无可匹敌。MIT 许可证意味着您对部署拥有完全的控制权——这对于隐私敏感型和大规模使用场景而言是决定性优势。

如何在本地运行 DeepSeek V4：硬件要求与安装指南

如何在本地运行 DeepSeek V4：硬件要求与安装指南

本地部署还是使用 API？

硬件要求

DeepSeek-V4-Flash（284B / 活跃参数 13B）

DeepSeek-V4-Pro（1.6T / 活跃参数 49B）

第一步：下载模型权重

使用 HuggingFace CLI（推荐）

从 ModelScope 下载（国内更快）

第二步：配置推理环境

第三步：运行基础推理

第四步：使用社区量化版本（llama.cpp / Ollama）

使用 Ollama（最简便）

使用 llama.cpp

推荐采样参数

性能参考

企业级隐私优势

总结