DeepSeek V4 在 HuggingFace 上的使用指南:如何访问与下载开放权重
DeepSeek V4 是完全开源的模型,所有模型权重均在 HuggingFace 上以宽松的 MIT 协议公开发布。无论您希望在本地运行该模型、针对特定场景进行微调,还是仅仅查看其架构,HuggingFace 都是 DeepSeek V4 的主要分发渠道。
本指南将详细介绍模型的获取位置、各仓库的内容、下载体量以及如何快速上手使用。
DeepSeek V4 HuggingFace 仓库链接
DeepSeek 在官方 deepseek-ai HuggingFace 合集中发布了四个模型仓库:
| 仓库 | 类型 | 参数量(总计 / 激活) | 精度 | 大小 |
|---|---|---|---|---|
| deepseek-ai/DeepSeek-V4-Flash-Base | 基础版(预训练) | 284B / 13B | FP8 混合 | ~160 GB |
| deepseek-ai/DeepSeek-V4-Flash | 指令版(RLHF 微调) | 284B / 13B | FP4 + FP8 混合 | ~160 GB |
| deepseek-ai/DeepSeek-V4-Pro-Base | 基础版(预训练) | 1.6T / 49B | FP8 混合 | ~865 GB |
| deepseek-ai/DeepSeek-V4-Pro | 指令版(RLHF 微调) | 1.6T / 49B | FP4 + FP8 混合 | ~865 GB |
所有四个仓库均属于 deepseek-ai/deepseek-v4 合集。
各仓库的内容
每个 V4 模型仓库包含:
- 模型权重 — SafeTensors 格式(分片存储)
- DeepSeek_V4.pdf — 完整技术报告
- encoding/ 文件夹 — 用于构建 OpenAI 兼容提示词及解析模型输出的 Python 脚本
- inference/ 文件夹 — 在本地运行模型的详细说明
- LICENSE — MIT 协议文件
- README — 包含模型卡片、基准测试表格和引用信息
技术报告(DeepSeek_V4.pdf)托管于 Pro 仓库,涵盖完整的架构细节,包括混合注意力机制(Hybrid Attention)、mHC 及训练方法论。
许可证:MIT 协议,而非 Apache
一个常见的误解是 DeepSeek 使用 Apache 2.0 协议(早期部分模型确实如此)。DeepSeek V4 采用更为宽松的 MIT 协议发布:
- ✅ 允许商业使用
- ✅ 允许修改
- ✅ 允许分发
- ✅ 允许私人使用
- ✅ 无专利条款或附加限制
这意味着您可以基于 V4 构建专有产品、对衍生版本进行微调并重新分发,以及在任何商业场景中使用,仅需保留 MIT 版权声明即可。
如何下载 DeepSeek V4 权重
方式一:HuggingFace CLI(推荐)
pip install huggingface_hub
# 下载 V4-Flash(指令版,~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
# 下载 V4-Pro(指令版,~865 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro
方式二:Python huggingface_hub
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="deepseek-ai/DeepSeek-V4-Flash",
local_dir="./DeepSeek-V4-Flash"
)
方式三:ModelScope(推荐中国大陆用户)
DeepSeek V4 同样在 ModelScope 上以相同仓库路径(deepseek-ai/DeepSeek-V4-Flash 等)发布,中国大陆用户使用 ModelScope 下载速度更快。
存储与带宽需求
| 模型 | 磁盘空间 | 所需显存 | 推荐 GPU 配置 |
|---|---|---|---|
| V4-Flash | ~160 GB | ~160 GB VRAM | 2x H100 80GB 或 8x A100 40GB |
| V4-Pro | ~865 GB | ~865 GB VRAM | 16x H100 80GB(或同等配置) |
| V4-Flash(量化版) | ~80 GB | ~80 GB VRAM | 2x RTX 4090 / 1x RTX 5090 |
| V4-Pro(量化版) | ~200 GB | ~200 GB VRAM | 4~8x H100 |
注意:DeepSeek 使用 FP4+FP8 混合精度,因此原始权重已经过大幅压缩。社区提供的量化版本(GGUF/GPTQ)正在 HuggingFace 上涌现,可进一步降低硬件需求。
运行模型:关键配置说明
DeepSeek V4 不使用标准的 HuggingFace Jinja 聊天模板,必须使用仓库 encoding/ 文件夹中提供的自定义编码脚本。
最简示例:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
messages = [
{"role": "user", "content": "请解释 DeepSeek V4 的混合注意力架构"}
]
prompt = encode_messages(messages, thinking_mode="thinking")
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)
完整推理配置请参阅各仓库中的 inference/README.md。
HuggingFace 社区动态
2026 年 4 月 24 日发布后数日内,DeepSeek V4-Pro 仓库已收获超过 123,000 次下载,并涌现出 22 个基于其构建的社区 Space。社区迅速贡献了:
- 面向 llama.cpp 的 GGUF 量化版本(支持 CPU+GPU 混合推理)
- 兼容 LM Studio 的版本
- Ollama 构建版
- Jan 兼容包
得益于这些社区维护的量化版本,V4-Flash 已可在单张 RTX 4090 上运行——对于一个拥有 2840 亿参数的模型而言,这是相当卓越的成就。
DeepSeek V4 与 AI 平台
如果您更倾向于通过 API 访问而非自行管理本地权重,V4 模型也可通过多家推理服务商获取。Framia.pro 等平台整合了包括最新 DeepSeek 版本在内的前沿 AI 模型,让创作者和开发者无需管理基础设施即可享受流畅的 API 访问体验。
总结
HuggingFace 上的 DeepSeek V4 是 AI 历史上最易获取的前沿模型发布之一。四个开放仓库、MIT 协议、完整技术报告以及自定义推理工具,均可免费使用。无论您是在 GPU 集群上运行它、尝试社区量化版本,还是通过 API 访问,HuggingFace 都是您的出发点。