DeepSeek V4 模型卡:开发者完整技术参考
DeepSeek V4 模型卡汇集了开发者理解和部署 V4 系列所需的全部信息。本参考文档涵盖 V4-Pro 与 V4-Flash 的完整技术规格、访问方式、已知限制及使用指南。
模型基本信息
| 字段 |
DeepSeek-V4-Pro |
DeepSeek-V4-Flash |
| 模型 ID |
deepseek-v4-pro |
deepseek-v4-flash |
| 开发方 |
DeepSeek-AI(杭州深度求索人工智能基础技术研究有限公司) |
|
| 发布日期 |
2026年4月24日(预览版) |
|
| 许可证 |
MIT License |
|
| 模型类型 |
纯解码器 Transformer,MoE |
|
| 架构 |
混合注意力(CSA + HCA)+ mHC |
|
| 总参数量 |
1.6T |
284B |
| 激活参数量 |
49B |
13B |
| 上下文长度 |
1,000,000 个 token |
1,000,000 个 token |
| 精度 |
FP4 + FP8 混合 |
FP4 + FP8 混合 |
| 下载大小 |
约 865 GB |
约 160 GB |
HuggingFace 仓库一览
| 仓库 |
类型 |
URL |
| DeepSeek-V4-Pro |
指令微调版(RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro |
| DeepSeek-V4-Pro-Base |
预训练基座模型 |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base |
| DeepSeek-V4-Flash |
指令微调版(RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash |
| DeepSeek-V4-Flash-Base |
预训练基座模型 |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base |
API 参考
接口端点
- 基础 URL:
https://api.deepseek.com/v1
- 对话补全:
POST /chat/completions
- 兼容格式: OpenAI ChatCompletions API、Anthropic Messages API
模型名称(API)
deepseek-v4-pro — 旗舰全能版
deepseek-v4-flash — 快速高性价比版
⚠️ 已弃用(将于 2026年7月24日停用): deepseek-chat、deepseek-reasoner
定价
| 模型 |
输入 |
输出 |
| deepseek-v4-flash |
$0.14 / 百万 token |
$0.28 / 百万 token |
| deepseek-v4-pro |
$1.74 / 百万 token |
$3.48 / 百万 token |
架构详情
混合注意力系统
| 层类型 |
机制 |
用途 |
| 近期 token 层 |
标准注意力 |
对邻近上下文保持完整精度 |
| 中距 token 层 |
压缩稀疏注意力(CSA) |
高效访问中等距离上下文 |
| 远距 token 层 |
高度压缩注意力(HCA) |
对远距历史进行紧凑表示 |
在 100 万 token 上下文下与 V3.2 的效率对比:
- FLOPs:为 V3.2 的 27%(降低 73%)
- KV 缓存:为 V3.2 的 10%(降低 90%)
训练创新
| 创新点 |
说明 |
| 优化器 |
Muon(替代 AdamW) |
| 残差连接 |
mHC(流形约束超连接) |
| 预训练数据 |
32T+ 多样化 token |
| 后训练阶段 1 |
通过 SFT + RL(GRPO)实现专家专化 |
| 后训练阶段 2 |
通过在线策略蒸馏实现统一整合 |
推理模式
| 模式 |
API 参数 |
思考预算 |
上下文要求 |
| 非思考模式 |
"thinking": {"type": "disabled"} |
无 |
标准 |
| 思考(高)模式 |
"thinking": {"type": "enabled", "budget_tokens": N} |
用户自定义 |
标准 |
| 思考(最大)模式 |
特殊系统提示词 + "thinking": {"type": "max"} |
扩展 |
建议 384K+ token |
推荐采样参数
{
"temperature": 1.0,
"top_p": 1.0
}
基准测试参考
V4-Pro-Max 与前沿模型对比
| 基准测试 |
V4-Pro Max |
Opus 4.6 Max |
GPT-5.4 xHigh |
Gemini-3.1-Pro High |
| MMLU-Pro |
87.5% |
89.1% |
87.5% |
91.0% |
| GPQA Diamond |
90.1% |
91.3% |
93.0% |
94.3% |
| HLE |
37.7% |
40.0% |
39.8% |
44.4% |
| LiveCodeBench |
93.5% |
88.8% |
N/A |
91.7% |
| Codeforces |
3206 |
N/A |
3168 |
3052 |
| SWE-bench Verified |
80.6% |
80.8% |
N/A |
80.6% |
| SWE-bench Pro |
55.4% |
57.3% |
57.7% |
54.2% |
| Terminal Bench 2.0 |
67.9% |
65.4% |
75.1% |
68.5% |
| MRCR 1M |
83.5% |
92.9% |
N/A |
76.3% |
| CorpusQA 1M |
62.0% |
71.7% |
N/A |
53.8% |
本地部署参考
| 配置方案 |
存储空间 |
显存(VRAM) |
最低 GPU 配置 |
| V4-Flash(完整版) |
160 GB |
约 160 GB |
2× H100 80GB |
| V4-Flash(Q4 量化) |
约 80 GB |
约 80 GB |
RTX 5090 |
| V4-Pro(完整版) |
865 GB |
约 865 GB |
16× H100 80GB |
| V4-Pro(Q4 量化) |
约 200–400 GB |
约 200–400 GB |
4–8× H100 80GB |
对话模板
DeepSeek V4 不使用标准 HuggingFace Jinja 对话模板。请使用各仓库 encoding/ 文件夹中的自定义编码脚本。
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
prompt = encode_messages(messages, thinking_mode="no_think")
# 选项:"no_think"、"thinking"、"max_thinking"
已知限制
- 发布时仅支持文本: 2026年4月预览版不支持图像、音频或视频的原生理解
- 预览状态: 可能存在边界情况,DeepSeek 建议关注官方账号获取更新
- Think Max 上下文要求: 获得最佳 Think Max 性能需要 384K+ token 的上下文窗口
- 下载体积大: V4-Pro 为 865 GB,本地部署需要充足的带宽和存储空间
- 对话模板: 非标准编码要求使用仓库提供的脚本,而非标准 HuggingFace 流水线工具
联系与支持
- 官方 Twitter: @deepseek_ai
- GitHub: github.com/deepseek-ai
- HuggingFace: huggingface.co/deepseek-ai
- API 文档: api-docs.deepseek.com
- 邮箱: service@deepseek.com
- 网页对话: chat.deepseek.com
对于在 Framia.pro 等集成了 DeepSeek V4 能力的平台上进行开发的工程师,本模型卡是所有集成决策的权威技术参考。
引用
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}