DeepSeek V4 在 HuggingFace 上的使用指南:如何访问与下载开放权重

DeepSeek V4-Pro 与 V4-Flash 模型权重已在 HuggingFace 以 MIT 协议免费开放。了解如何查找、下载并在本地运行,或通过 Framia.pro 直接调用 API。

by Framia

DeepSeek V4 在 HuggingFace 上的使用指南:如何访问与下载开放权重

DeepSeek V4 是完全开源的模型,所有模型权重均在 HuggingFace 上以宽松的 MIT 协议公开发布。无论您希望在本地运行该模型、针对特定场景进行微调,还是仅仅查看其架构,HuggingFace 都是 DeepSeek V4 的主要分发渠道。

本指南将详细介绍模型的获取位置、各仓库的内容、下载体量以及如何快速上手使用。


DeepSeek V4 HuggingFace 仓库链接

DeepSeek 在官方 deepseek-ai HuggingFace 合集中发布了四个模型仓库:

仓库 类型 参数量(总计 / 激活) 精度 大小
deepseek-ai/DeepSeek-V4-Flash-Base 基础版(预训练) 284B / 13B FP8 混合 ~160 GB
deepseek-ai/DeepSeek-V4-Flash 指令版(RLHF 微调) 284B / 13B FP4 + FP8 混合 ~160 GB
deepseek-ai/DeepSeek-V4-Pro-Base 基础版(预训练) 1.6T / 49B FP8 混合 ~865 GB
deepseek-ai/DeepSeek-V4-Pro 指令版(RLHF 微调) 1.6T / 49B FP4 + FP8 混合 ~865 GB

所有四个仓库均属于 deepseek-ai/deepseek-v4 合集。


各仓库的内容

每个 V4 模型仓库包含:

  • 模型权重 — SafeTensors 格式(分片存储)
  • DeepSeek_V4.pdf — 完整技术报告
  • encoding/ 文件夹 — 用于构建 OpenAI 兼容提示词及解析模型输出的 Python 脚本
  • inference/ 文件夹 — 在本地运行模型的详细说明
  • LICENSE — MIT 协议文件
  • README — 包含模型卡片、基准测试表格和引用信息

技术报告(DeepSeek_V4.pdf)托管于 Pro 仓库,涵盖完整的架构细节,包括混合注意力机制(Hybrid Attention)、mHC 及训练方法论。


许可证:MIT 协议,而非 Apache

一个常见的误解是 DeepSeek 使用 Apache 2.0 协议(早期部分模型确实如此)。DeepSeek V4 采用更为宽松的 MIT 协议发布:

  • ✅ 允许商业使用
  • ✅ 允许修改
  • ✅ 允许分发
  • ✅ 允许私人使用
  • ✅ 无专利条款或附加限制

这意味着您可以基于 V4 构建专有产品、对衍生版本进行微调并重新分发,以及在任何商业场景中使用,仅需保留 MIT 版权声明即可。


如何下载 DeepSeek V4 权重

方式一:HuggingFace CLI(推荐)

pip install huggingface_hub

# 下载 V4-Flash(指令版,~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

# 下载 V4-Pro(指令版,~865 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro

方式二:Python huggingface_hub

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="deepseek-ai/DeepSeek-V4-Flash",
    local_dir="./DeepSeek-V4-Flash"
)

方式三:ModelScope(推荐中国大陆用户)

DeepSeek V4 同样在 ModelScope 上以相同仓库路径(deepseek-ai/DeepSeek-V4-Flash 等)发布,中国大陆用户使用 ModelScope 下载速度更快。


存储与带宽需求

模型 磁盘空间 所需显存 推荐 GPU 配置
V4-Flash ~160 GB ~160 GB VRAM 2x H100 80GB 或 8x A100 40GB
V4-Pro ~865 GB ~865 GB VRAM 16x H100 80GB(或同等配置)
V4-Flash(量化版) ~80 GB ~80 GB VRAM 2x RTX 4090 / 1x RTX 5090
V4-Pro(量化版) ~200 GB ~200 GB VRAM 4~8x H100

注意:DeepSeek 使用 FP4+FP8 混合精度,因此原始权重已经过大幅压缩。社区提供的量化版本(GGUF/GPTQ)正在 HuggingFace 上涌现,可进一步降低硬件需求。


运行模型:关键配置说明

DeepSeek V4 不使用标准的 HuggingFace Jinja 聊天模板,必须使用仓库 encoding/ 文件夹中提供的自定义编码脚本

最简示例:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "请解释 DeepSeek V4 的混合注意力架构"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)

完整推理配置请参阅各仓库中的 inference/README.md


HuggingFace 社区动态

2026 年 4 月 24 日发布后数日内,DeepSeek V4-Pro 仓库已收获超过 123,000 次下载,并涌现出 22 个基于其构建的社区 Space。社区迅速贡献了:

  • 面向 llama.cpp 的 GGUF 量化版本(支持 CPU+GPU 混合推理)
  • 兼容 LM Studio 的版本
  • Ollama 构建版
  • Jan 兼容包

得益于这些社区维护的量化版本,V4-Flash 已可在单张 RTX 4090 上运行——对于一个拥有 2840 亿参数的模型而言,这是相当卓越的成就。


DeepSeek V4 与 AI 平台

如果您更倾向于通过 API 访问而非自行管理本地权重,V4 模型也可通过多家推理服务商获取。Framia.pro 等平台整合了包括最新 DeepSeek 版本在内的前沿 AI 模型,让创作者和开发者无需管理基础设施即可享受流畅的 API 访问体验。


总结

HuggingFace 上的 DeepSeek V4 是 AI 历史上最易获取的前沿模型发布之一。四个开放仓库、MIT 协议、完整技术报告以及自定义推理工具,均可免费使用。无论您是在 GPU 集群上运行它、尝试社区量化版本,还是通过 API 访问,HuggingFace 都是您的出发点。