DeepSeek V4 模型卡：完整技术规格参考（2026）

DeepSeek V4 完整模型卡：全面规格参数、API 参考、定价、基准测试对比、本地部署指南及 V4-Pro 与 V4-Flash 技术说明，一文全览。

DeepSeek V4 模型卡：开发者完整技术参考

DeepSeek V4 模型卡汇集了开发者理解和部署 V4 系列所需的全部信息。本参考文档涵盖 V4-Pro 与 V4-Flash 的完整技术规格、访问方式、已知限制及使用指南。

模型基本信息

字段	DeepSeek-V4-Pro	DeepSeek-V4-Flash
模型 ID	`deepseek-v4-pro`	`deepseek-v4-flash`
开发方	DeepSeek-AI（杭州深度求索人工智能基础技术研究有限公司）
发布日期	2026年4月24日（预览版）
许可证	MIT License
模型类型	纯解码器 Transformer，MoE
架构	混合注意力（CSA + HCA）+ mHC
总参数量	1.6T	284B
激活参数量	49B	13B
上下文长度	1,000,000 个 token	1,000,000 个 token
精度	FP4 + FP8 混合	FP4 + FP8 混合
下载大小	约 865 GB	约 160 GB

HuggingFace 仓库一览

仓库	类型	URL
DeepSeek-V4-Pro	指令微调版（RLHF）	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	预训练基座模型	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	指令微调版（RLHF）	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	预训练基座模型	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API 参考

接口端点

基础 URL： https://api.deepseek.com/v1
对话补全： POST /chat/completions
兼容格式： OpenAI ChatCompletions API、Anthropic Messages API

模型名称（API）

deepseek-v4-pro — 旗舰全能版
deepseek-v4-flash — 快速高性价比版

⚠️ 已弃用（将于 2026年7月24日停用）： deepseek-chat、deepseek-reasoner

定价

模型	输入	输出
deepseek-v4-flash	$0.14 / 百万 token	$0.28 / 百万 token
deepseek-v4-pro	$1.74 / 百万 token	$3.48 / 百万 token

架构详情

混合注意力系统

层类型	机制	用途
近期 token 层	标准注意力	对邻近上下文保持完整精度
中距 token 层	压缩稀疏注意力（CSA）	高效访问中等距离上下文
远距 token 层	高度压缩注意力（HCA）	对远距历史进行紧凑表示

在 100 万 token 上下文下与 V3.2 的效率对比：

FLOPs：为 V3.2 的 27%（降低 73%）
KV 缓存：为 V3.2 的 10%（降低 90%）

训练创新

创新点	说明
优化器	Muon（替代 AdamW）
残差连接	mHC（流形约束超连接）
预训练数据	32T+ 多样化 token
后训练阶段 1	通过 SFT + RL（GRPO）实现专家专化
后训练阶段 2	通过在线策略蒸馏实现统一整合

推理模式

模式	API 参数	思考预算	上下文要求
非思考模式	`"thinking": {"type": "disabled"}`	无	标准
思考（高）模式	`"thinking": {"type": "enabled", "budget_tokens": N}`	用户自定义	标准
思考（最大）模式	特殊系统提示词 + `"thinking": {"type": "max"}`	扩展	建议 384K+ token

基准测试参考

V4-Pro-Max 与前沿模型对比

基准测试	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87.5%	89.1%	87.5%	91.0%
GPQA Diamond	90.1%	91.3%	93.0%	94.3%
HLE	37.7%	40.0%	39.8%	44.4%
LiveCodeBench	93.5%	88.8%	N/A	91.7%
Codeforces	3206	N/A	3168	3052
SWE-bench Verified	80.6%	80.8%	N/A	80.6%
SWE-bench Pro	55.4%	57.3%	57.7%	54.2%
Terminal Bench 2.0	67.9%	65.4%	75.1%	68.5%
MRCR 1M	83.5%	92.9%	N/A	76.3%
CorpusQA 1M	62.0%	71.7%	N/A	53.8%

本地部署参考

配置方案	存储空间	显存（VRAM）	最低 GPU 配置
V4-Flash（完整版）	160 GB	约 160 GB	2× H100 80GB
V4-Flash（Q4 量化）	约 80 GB	约 80 GB	RTX 5090
V4-Pro（完整版）	865 GB	约 865 GB	16× H100 80GB
V4-Pro（Q4 量化）	约 200–400 GB	约 200–400 GB	4–8× H100 80GB

对话模板

DeepSeek V4 不使用标准 HuggingFace Jinja 对话模板。请使用各仓库 encoding/ 文件夹中的自定义编码脚本。

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# 选项："no_think"、"thinking"、"max_thinking"

已知限制

发布时仅支持文本： 2026年4月预览版不支持图像、音频或视频的原生理解
预览状态： 可能存在边界情况，DeepSeek 建议关注官方账号获取更新
Think Max 上下文要求： 获得最佳 Think Max 性能需要 384K+ token 的上下文窗口
下载体积大： V4-Pro 为 865 GB，本地部署需要充足的带宽和存储空间
对话模板： 非标准编码要求使用仓库提供的脚本，而非标准 HuggingFace 流水线工具

联系与支持

官方 Twitter： @deepseek_ai
GitHub： github.com/deepseek-ai
HuggingFace： huggingface.co/deepseek-ai
API 文档： api-docs.deepseek.com
邮箱： service@deepseek.com
网页对话： chat.deepseek.com

对于在 Framia.pro 等集成了 DeepSeek V4 能力的平台上进行开发的工程师，本模型卡是所有集成决策的权威技术参考。

引用

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}

DeepSeek V4 模型卡：开发者完整技术参考

DeepSeek V4 模型卡：开发者完整技术参考

模型基本信息

HuggingFace 仓库一览

API 参考

接口端点

模型名称（API）

定价

架构详情

混合注意力系统

训练创新

推理模式

推荐采样参数

基准测试参考

V4-Pro-Max 与前沿模型对比

本地部署参考

对话模板

已知限制

联系与支持

引用