DeepSeek V4 模型卡:开发者完整技术参考

DeepSeek V4 完整模型卡:全面规格参数、API 参考、定价、基准测试对比、本地部署指南及 V4-Pro 与 V4-Flash 技术说明,一文全览。

by Framia

DeepSeek V4 模型卡:开发者完整技术参考

DeepSeek V4 模型卡汇集了开发者理解和部署 V4 系列所需的全部信息。本参考文档涵盖 V4-Pro 与 V4-Flash 的完整技术规格、访问方式、已知限制及使用指南。


模型基本信息

字段 DeepSeek-V4-Pro DeepSeek-V4-Flash
模型 ID deepseek-v4-pro deepseek-v4-flash
开发方 DeepSeek-AI(杭州深度求索人工智能基础技术研究有限公司)
发布日期 2026年4月24日(预览版)
许可证 MIT License
模型类型 纯解码器 Transformer,MoE
架构 混合注意力(CSA + HCA)+ mHC
总参数量 1.6T 284B
激活参数量 49B 13B
上下文长度 1,000,000 个 token 1,000,000 个 token
精度 FP4 + FP8 混合 FP4 + FP8 混合
下载大小 约 865 GB 约 160 GB

HuggingFace 仓库一览

仓库 类型 URL
DeepSeek-V4-Pro 指令微调版(RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base 预训练基座模型 huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash 指令微调版(RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base 预训练基座模型 huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API 参考

接口端点

  • 基础 URL: https://api.deepseek.com/v1
  • 对话补全: POST /chat/completions
  • 兼容格式: OpenAI ChatCompletions API、Anthropic Messages API

模型名称(API)

  • deepseek-v4-pro — 旗舰全能版
  • deepseek-v4-flash — 快速高性价比版

⚠️ 已弃用(将于 2026年7月24日停用): deepseek-chatdeepseek-reasoner

定价

模型 输入 输出
deepseek-v4-flash $0.14 / 百万 token $0.28 / 百万 token
deepseek-v4-pro $1.74 / 百万 token $3.48 / 百万 token

架构详情

混合注意力系统

层类型 机制 用途
近期 token 层 标准注意力 对邻近上下文保持完整精度
中距 token 层 压缩稀疏注意力(CSA) 高效访问中等距离上下文
远距 token 层 高度压缩注意力(HCA) 对远距历史进行紧凑表示

在 100 万 token 上下文下与 V3.2 的效率对比:

  • FLOPs:为 V3.2 的 27%(降低 73%)
  • KV 缓存:为 V3.2 的 10%(降低 90%)

训练创新

创新点 说明
优化器 Muon(替代 AdamW)
残差连接 mHC(流形约束超连接)
预训练数据 32T+ 多样化 token
后训练阶段 1 通过 SFT + RL(GRPO)实现专家专化
后训练阶段 2 通过在线策略蒸馏实现统一整合

推理模式

模式 API 参数 思考预算 上下文要求
非思考模式 "thinking": {"type": "disabled"} 标准
思考(高)模式 "thinking": {"type": "enabled", "budget_tokens": N} 用户自定义 标准
思考(最大)模式 特殊系统提示词 + "thinking": {"type": "max"} 扩展 建议 384K+ token

推荐采样参数

{
  "temperature": 1.0,
  "top_p": 1.0
}

基准测试参考

V4-Pro-Max 与前沿模型对比

基准测试 V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87.5% 89.1% 87.5% 91.0%
GPQA Diamond 90.1% 91.3% 93.0% 94.3%
HLE 37.7% 40.0% 39.8% 44.4%
LiveCodeBench 93.5% 88.8% N/A 91.7%
Codeforces 3206 N/A 3168 3052
SWE-bench Verified 80.6% 80.8% N/A 80.6%
SWE-bench Pro 55.4% 57.3% 57.7% 54.2%
Terminal Bench 2.0 67.9% 65.4% 75.1% 68.5%
MRCR 1M 83.5% 92.9% N/A 76.3%
CorpusQA 1M 62.0% 71.7% N/A 53.8%

本地部署参考

配置方案 存储空间 显存(VRAM) 最低 GPU 配置
V4-Flash(完整版) 160 GB 约 160 GB 2× H100 80GB
V4-Flash(Q4 量化) 约 80 GB 约 80 GB RTX 5090
V4-Pro(完整版) 865 GB 约 865 GB 16× H100 80GB
V4-Pro(Q4 量化) 约 200–400 GB 约 200–400 GB 4–8× H100 80GB

对话模板

DeepSeek V4 不使用标准 HuggingFace Jinja 对话模板。请使用各仓库 encoding/ 文件夹中的自定义编码脚本。

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# 选项:"no_think"、"thinking"、"max_thinking"

已知限制

  • 发布时仅支持文本: 2026年4月预览版不支持图像、音频或视频的原生理解
  • 预览状态: 可能存在边界情况,DeepSeek 建议关注官方账号获取更新
  • Think Max 上下文要求: 获得最佳 Think Max 性能需要 384K+ token 的上下文窗口
  • 下载体积大: V4-Pro 为 865 GB,本地部署需要充足的带宽和存储空间
  • 对话模板: 非标准编码要求使用仓库提供的脚本,而非标准 HuggingFace 流水线工具

联系与支持

  • 官方 Twitter: @deepseek_ai
  • GitHub: github.com/deepseek-ai
  • HuggingFace: huggingface.co/deepseek-ai
  • API 文档: api-docs.deepseek.com
  • 邮箱: service@deepseek.com
  • 网页对话: chat.deepseek.com

对于在 Framia.pro 等集成了 DeepSeek V4 能力的平台上进行开发的工程师,本模型卡是所有集成决策的权威技术参考。


引用

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}