DeepSeek V4 AI模型详解:完整规格、功能与能力指南
本文将DeepSeek V4系列的规格、功能与能力等所有核心信息整合为一份全面的参考资料,是评估、集成或研究V4系列的所有人士的权威指南。
核心规格
DeepSeek-V4-Pro
| 规格 | 详情 |
|---|---|
| 架构 | 专家混合(MoE)+ 混合注意力(CSA + HCA)+ mHC |
| 总参数量 | 1.6万亿 |
| 活跃参数量(每token) | 490亿 |
| 上下文长度 | 1,000,000 tokens(默认) |
| 预训练数据 | 32T+多样化tokens |
| 许可证 | MIT |
| 发布日期 | 2026年4月24日(预览版) |
| 精度 | FP4(专家)+ FP8(其他权重)混合 |
| 下载大小 | 约865 GB |
| HuggingFace ID | deepseek-ai/DeepSeek-V4-Pro |
| API模型名称 | deepseek-v4-pro |
| API输入价格 | $1.74 / 100万tokens |
| API输出价格 | $3.48 / 100万tokens |
DeepSeek-V4-Flash
| 规格 | 详情 |
|---|---|
| 架构 | MoE + 混合注意力(CSA + HCA)+ mHC |
| 总参数量 | 2,840亿 |
| 活跃参数量(每token) | 130亿 |
| 上下文长度 | 1,000,000 tokens(默认) |
| 预训练数据 | 32T+多样化tokens |
| 许可证 | MIT |
| 发布日期 | 2026年4月24日(预览版) |
| 精度 | FP4(专家)+ FP8(其他权重)混合 |
| 下载大小 | 约160 GB |
| HuggingFace ID | deepseek-ai/DeepSeek-V4-Flash |
| API模型名称 | deepseek-v4-flash |
| API输入价格 | $0.14 / 100万tokens |
| API输出价格 | $0.28 / 100万tokens |
架构深度解析
混合注意力机制:CSA + HCA
V4架构的核心创新融合了两种互补的注意力机制:
压缩稀疏注意力(CSA): 对中等距离的上下文键值对进行逐token压缩,在保持精度的同时降低内存和计算需求。
高度压缩注意力(HCA): 对极远距离的token进行激进压缩,存储紧凑的摘要表示,使模型无需完整注意力开销即可在完整的百万token上下文中"记忆"信息。
1M token上下文相较V3.2的综合效果:
- 推理FLOPs:降至V3.2的27%
- KV缓存内存:降至V3.2的10%
流形约束超连接(mHC)
替代网络中的标准残差连接。通过将权重更新约束在黎曼流形上,mHC增强了V4-Pro数百个Transformer层的信号传播,实现1.6万亿参数的稳定训练。
Muon优化器
Muon(动量+正交化)优化器取代AdamW。通过正交化梯度更新:
- 消除连续更新步骤之间的冗余
- 实现更快的收敛(每个训练步骤获得更多学习)
- 在32T+ token预训练规模下提供更高的稳定性
三种推理模式
| 模式 | 说明 | API配置 | 上下文需求 |
|---|---|---|---|
| Non-think | 直接响应,无思维链 | thinking: {type: "disabled"} |
标准 |
| Think High | 带token预算的结构化推理 | thinking: {type: "enabled", budget_tokens: N} |
标准 |
| Think Max | 扩展穷举推理 | 特殊系统提示 + thinking: {type: "max"} |
384K+ tokens |
性能影响(V4-Pro):
| 基准测试 | Non-Think | Think Max |
|---|---|---|
| LiveCodeBench | 56.8% | 93.5% |
| GPQA Diamond | 72.9% | 90.1% |
| Codeforces评分 | N/A | 3206 |
| HMMT 2026 Feb | 31.7% | 95.2% |
核心能力
编程
- 开源模型最佳Codeforces评分:3206
- LiveCodeBench:93.5%(Pass@1)
- SWE-bench Verified:80.6%(已解决)
- SWE-bench Pro:55.4%(已解决)
- SWE-bench多语言:76.2%(已解决)
- 与Claude Code、OpenClaw、OpenCode原生集成
推理与知识
- MMLU-Pro:87.5%(Think Max)
- GPQA Diamond:90.1%(Think Max)
- HLE:37.7%(Think Max)
- SimpleQA-Verified:57.9%(Think Max)
- MMMLU(多语言):90.3%(基础)
长上下文
- MRCR 1M(大海捞针):83.5%(Think Max)— 超越Gemini-3.1-Pro
- CorpusQA 1M:62.0%(Think Max)— Claude之外的最高分
- LongBench-V2(基础):51.5%
智能体任务
- Terminal Bench 2.0:67.9%(Think Max)
- SWE-bench Verified:80.6%
- MCPAtlas Public:73.6%(Think Max)— 开源最高分
- BrowseComp:83.4%(Think Max)
- Toolathlon:51.8%(Think Max)
API兼容性
| API格式 | 支持情况 |
|---|---|
| OpenAI ChatCompletions | ✅ 完全兼容 |
| Anthropic Messages API | ✅ 完全兼容 |
| 工具/函数调用 | ✅ 支持 |
| 流式传输 | ✅ 支持 |
思考内容(reasoning_content) |
✅ Think High/Max模式可用 |
可用模型变体
| 模型 | 类型 | 可用平台 |
|---|---|---|
| DeepSeek-V4-Pro | 指令微调(对话优化) | HuggingFace、ModelScope、API |
| DeepSeek-V4-Pro-Base | 预训练基础模型 | HuggingFace、ModelScope |
| DeepSeek-V4-Flash | 指令微调(对话优化) | HuggingFace、ModelScope、API |
| DeepSeek-V4-Flash-Base | 预训练基础模型 | HuggingFace、ModelScope |
智能体集成
DeepSeek V4原生集成以下工具:
- Claude Code — 领先的AI编程助手
- OpenClaw — 开源多智能体框架
- OpenCode — 开源自主编程系统
目前已在DeepSeek自身的内部智能体编程基础设施中投入使用。
访问方式
- 网页: chat.deepseek.com(即时模式 = Flash;专家模式 = Pro)
- API: api.deepseek.com/v1 — 将模型更新为
deepseek-v4-pro或deepseek-v4-flash - HuggingFace: 下载权重用于本地部署
- ModelScope: 国内用户可通过此平台快速下载
- 第三方推理服务商: 包括Novita在内的多家服务商提供V4 API访问
旧版模型迁移
| 旧模型名称 | 现路由至 | 停用日期 |
|---|---|---|
| deepseek-chat | deepseek-v4-flash(非思考) | 2026年7月24日 |
| deepseek-reasoner | deepseek-v4-flash(思考) | 2026年7月24日 |
按任务类型的推荐配置
| 任务 | 推荐配置 | 理由 |
|---|---|---|
| 对话与问答 | V4-Flash Non-think | 速度快、成本低 |
| 代码补全 | V4-Flash Non-think | 速度优先 |
| 复杂算法设计 | V4-Pro Think High | 精度与速度的平衡 |
| 竞技编程 | V4-Pro Think Max | 最高性能 |
| 文档摘要 | V4-Flash Non-think | 大批量处理 |
| 深度文档分析 | V4-Pro Think High | 大上下文下的精度 |
| 自主智能体 | V4-Pro Think Max | 复杂多步骤任务 |
Framia.pro 等AI原生平台实现了跨配置的智能路由——将任务复杂度与合适的V4变体和模式精准匹配,从而为创意工作流程同时优化质量与成本。
总结
DeepSeek V4是截至2026年4月最强大的开放权重模型系列。凭借1.6万亿参数(V4-Pro)、MIT许可证、标准100万token上下文窗口、三种推理模式、前沿级编程能力,以及比闭源替代品低10至35倍的定价,它代表了可访问AI能力的真正跨越式进步。