DeepSeek V4 HuggingFace 下载与使用完整指南（2026）

DeepSeek V4-Pro 与 V4-Flash 模型权重已在 HuggingFace 以 MIT 协议免费开放。了解如何查找、下载并在本地运行，或通过 Framia.pro 直接调用 API。

DeepSeek V4 在 HuggingFace 上的使用指南：如何访问与下载开放权重

DeepSeek V4 是完全开源的模型，所有模型权重均在 HuggingFace 上以宽松的 MIT 协议公开发布。无论您希望在本地运行该模型、针对特定场景进行微调，还是仅仅查看其架构，HuggingFace 都是 DeepSeek V4 的主要分发渠道。

本指南将详细介绍模型的获取位置、各仓库的内容、下载体量以及如何快速上手使用。

DeepSeek V4 HuggingFace 仓库链接

DeepSeek 在官方 deepseek-ai HuggingFace 合集中发布了四个模型仓库：

仓库	类型	参数量（总计 / 激活）	精度	大小
deepseek-ai/DeepSeek-V4-Flash-Base	基础版（预训练）	284B / 13B	FP8 混合	~160 GB
deepseek-ai/DeepSeek-V4-Flash	指令版（RLHF 微调）	284B / 13B	FP4 + FP8 混合	~160 GB
deepseek-ai/DeepSeek-V4-Pro-Base	基础版（预训练）	1.6T / 49B	FP8 混合	~865 GB
deepseek-ai/DeepSeek-V4-Pro	指令版（RLHF 微调）	1.6T / 49B	FP4 + FP8 混合	~865 GB

所有四个仓库均属于 deepseek-ai/deepseek-v4 合集。

各仓库的内容

每个 V4 模型仓库包含：

模型权重 — SafeTensors 格式（分片存储）
DeepSeek_V4.pdf — 完整技术报告
encoding/ 文件夹 — 用于构建 OpenAI 兼容提示词及解析模型输出的 Python 脚本
inference/ 文件夹 — 在本地运行模型的详细说明
LICENSE — MIT 协议文件
README — 包含模型卡片、基准测试表格和引用信息

技术报告（DeepSeek_V4.pdf）托管于 Pro 仓库，涵盖完整的架构细节，包括混合注意力机制（Hybrid Attention）、mHC 及训练方法论。

许可证：MIT 协议，而非 Apache

一个常见的误解是 DeepSeek 使用 Apache 2.0 协议（早期部分模型确实如此）。DeepSeek V4 采用更为宽松的 MIT 协议发布：

✅ 允许商业使用
✅ 允许修改
✅ 允许分发
✅ 允许私人使用
✅ 无专利条款或附加限制

如何下载 DeepSeek V4 权重

方式一：HuggingFace CLI（推荐）

pip install huggingface_hub

# 下载 V4-Flash（指令版，~160 GB）
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

# 下载 V4-Pro（指令版，~865 GB）
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro

方式二：Python huggingface_hub

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="deepseek-ai/DeepSeek-V4-Flash",
    local_dir="./DeepSeek-V4-Flash"
)

方式三：ModelScope（推荐中国大陆用户）

DeepSeek V4 同样在 ModelScope 上以相同仓库路径（deepseek-ai/DeepSeek-V4-Flash 等）发布，中国大陆用户使用 ModelScope 下载速度更快。

存储与带宽需求

模型	磁盘空间	所需显存	推荐 GPU 配置
V4-Flash	~160 GB	~160 GB VRAM	2x H100 80GB 或 8x A100 40GB
V4-Pro	~865 GB	~865 GB VRAM	16x H100 80GB（或同等配置）
V4-Flash（量化版）	~80 GB	~80 GB VRAM	2x RTX 4090 / 1x RTX 5090
V4-Pro（量化版）	~200 GB	~200 GB VRAM	4~8x H100

注意：DeepSeek 使用 FP4+FP8 混合精度，因此原始权重已经过大幅压缩。社区提供的量化版本（GGUF/GPTQ）正在 HuggingFace 上涌现，可进一步降低硬件需求。

运行模型：关键配置说明

DeepSeek V4 不使用标准的 HuggingFace Jinja 聊天模板，必须使用仓库 encoding/ 文件夹中提供的自定义编码脚本。

最简示例：

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "请解释 DeepSeek V4 的混合注意力架构"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)

完整推理配置请参阅各仓库中的 inference/README.md。

HuggingFace 社区动态

2026 年 4 月 24 日发布后数日内，DeepSeek V4-Pro 仓库已收获超过 123,000 次下载，并涌现出 22 个基于其构建的社区 Space。社区迅速贡献了：

面向 llama.cpp 的 GGUF 量化版本（支持 CPU+GPU 混合推理）
兼容 LM Studio 的版本
Ollama 构建版
Jan 兼容包

得益于这些社区维护的量化版本，V4-Flash 已可在单张 RTX 4090 上运行——对于一个拥有 2840 亿参数的模型而言，这是相当卓越的成就。

DeepSeek V4 与 AI 平台

如果您更倾向于通过 API 访问而非自行管理本地权重，V4 模型也可通过多家推理服务商获取。Framia.pro 等平台整合了包括最新 DeepSeek 版本在内的前沿 AI 模型，让创作者和开发者无需管理基础设施即可享受流畅的 API 访问体验。

总结

HuggingFace 上的 DeepSeek V4 是 AI 历史上最易获取的前沿模型发布之一。四个开放仓库、MIT 协议、完整技术报告以及自定义推理工具，均可免费使用。无论您是在 GPU 集群上运行它、尝试社区量化版本，还是通过 API 访问，HuggingFace 都是您的出发点。