DeepSeek V4 AI模型详解:完整规格、功能与能力指南

DeepSeek V4 AI模型完整指南:涵盖Pro与Flash详细规格、架构解析、基准测试对比、定价、API兼容性及各场景推荐配置,一文全览。

by Framia

DeepSeek V4 AI模型详解:完整规格、功能与能力指南

本文将DeepSeek V4系列的规格、功能与能力等所有核心信息整合为一份全面的参考资料,是评估、集成或研究V4系列的所有人士的权威指南。


核心规格

DeepSeek-V4-Pro

规格 详情
架构 专家混合(MoE)+ 混合注意力(CSA + HCA)+ mHC
总参数量 1.6万亿
活跃参数量(每token) 490亿
上下文长度 1,000,000 tokens(默认)
预训练数据 32T+多样化tokens
许可证 MIT
发布日期 2026年4月24日(预览版)
精度 FP4(专家)+ FP8(其他权重)混合
下载大小 约865 GB
HuggingFace ID deepseek-ai/DeepSeek-V4-Pro
API模型名称 deepseek-v4-pro
API输入价格 $1.74 / 100万tokens
API输出价格 $3.48 / 100万tokens

DeepSeek-V4-Flash

规格 详情
架构 MoE + 混合注意力(CSA + HCA)+ mHC
总参数量 2,840亿
活跃参数量(每token) 130亿
上下文长度 1,000,000 tokens(默认)
预训练数据 32T+多样化tokens
许可证 MIT
发布日期 2026年4月24日(预览版)
精度 FP4(专家)+ FP8(其他权重)混合
下载大小 约160 GB
HuggingFace ID deepseek-ai/DeepSeek-V4-Flash
API模型名称 deepseek-v4-flash
API输入价格 $0.14 / 100万tokens
API输出价格 $0.28 / 100万tokens

架构深度解析

混合注意力机制:CSA + HCA

V4架构的核心创新融合了两种互补的注意力机制:

压缩稀疏注意力(CSA): 对中等距离的上下文键值对进行逐token压缩,在保持精度的同时降低内存和计算需求。

高度压缩注意力(HCA): 对极远距离的token进行激进压缩,存储紧凑的摘要表示,使模型无需完整注意力开销即可在完整的百万token上下文中"记忆"信息。

1M token上下文相较V3.2的综合效果:

  • 推理FLOPs:降至V3.2的27%
  • KV缓存内存:降至V3.2的10%

流形约束超连接(mHC)

替代网络中的标准残差连接。通过将权重更新约束在黎曼流形上,mHC增强了V4-Pro数百个Transformer层的信号传播,实现1.6万亿参数的稳定训练。

Muon优化器

Muon(动量+正交化)优化器取代AdamW。通过正交化梯度更新:

  • 消除连续更新步骤之间的冗余
  • 实现更快的收敛(每个训练步骤获得更多学习)
  • 在32T+ token预训练规模下提供更高的稳定性

三种推理模式

模式 说明 API配置 上下文需求
Non-think 直接响应,无思维链 thinking: {type: "disabled"} 标准
Think High 带token预算的结构化推理 thinking: {type: "enabled", budget_tokens: N} 标准
Think Max 扩展穷举推理 特殊系统提示 + thinking: {type: "max"} 384K+ tokens

性能影响(V4-Pro):

基准测试 Non-Think Think Max
LiveCodeBench 56.8% 93.5%
GPQA Diamond 72.9% 90.1%
Codeforces评分 N/A 3206
HMMT 2026 Feb 31.7% 95.2%

核心能力

编程

  • 开源模型最佳Codeforces评分:3206
  • LiveCodeBench:93.5%(Pass@1)
  • SWE-bench Verified:80.6%(已解决)
  • SWE-bench Pro:55.4%(已解决)
  • SWE-bench多语言:76.2%(已解决)
  • 与Claude Code、OpenClaw、OpenCode原生集成

推理与知识

  • MMLU-Pro:87.5%(Think Max)
  • GPQA Diamond:90.1%(Think Max)
  • HLE:37.7%(Think Max)
  • SimpleQA-Verified:57.9%(Think Max)
  • MMMLU(多语言):90.3%(基础)

长上下文

  • MRCR 1M(大海捞针):83.5%(Think Max)— 超越Gemini-3.1-Pro
  • CorpusQA 1M:62.0%(Think Max)— Claude之外的最高分
  • LongBench-V2(基础):51.5%

智能体任务

  • Terminal Bench 2.0:67.9%(Think Max)
  • SWE-bench Verified:80.6%
  • MCPAtlas Public:73.6%(Think Max)— 开源最高分
  • BrowseComp:83.4%(Think Max)
  • Toolathlon:51.8%(Think Max)

API兼容性

API格式 支持情况
OpenAI ChatCompletions ✅ 完全兼容
Anthropic Messages API ✅ 完全兼容
工具/函数调用 ✅ 支持
流式传输 ✅ 支持
思考内容(reasoning_content ✅ Think High/Max模式可用

可用模型变体

模型 类型 可用平台
DeepSeek-V4-Pro 指令微调(对话优化) HuggingFace、ModelScope、API
DeepSeek-V4-Pro-Base 预训练基础模型 HuggingFace、ModelScope
DeepSeek-V4-Flash 指令微调(对话优化) HuggingFace、ModelScope、API
DeepSeek-V4-Flash-Base 预训练基础模型 HuggingFace、ModelScope

智能体集成

DeepSeek V4原生集成以下工具:

  • Claude Code — 领先的AI编程助手
  • OpenClaw — 开源多智能体框架
  • OpenCode — 开源自主编程系统

目前已在DeepSeek自身的内部智能体编程基础设施中投入使用。


访问方式

  1. 网页: chat.deepseek.com(即时模式 = Flash;专家模式 = Pro)
  2. API: api.deepseek.com/v1 — 将模型更新为 deepseek-v4-prodeepseek-v4-flash
  3. HuggingFace: 下载权重用于本地部署
  4. ModelScope: 国内用户可通过此平台快速下载
  5. 第三方推理服务商: 包括Novita在内的多家服务商提供V4 API访问

旧版模型迁移

旧模型名称 现路由至 停用日期
deepseek-chat deepseek-v4-flash(非思考) 2026年7月24日
deepseek-reasoner deepseek-v4-flash(思考) 2026年7月24日

按任务类型的推荐配置

任务 推荐配置 理由
对话与问答 V4-Flash Non-think 速度快、成本低
代码补全 V4-Flash Non-think 速度优先
复杂算法设计 V4-Pro Think High 精度与速度的平衡
竞技编程 V4-Pro Think Max 最高性能
文档摘要 V4-Flash Non-think 大批量处理
深度文档分析 V4-Pro Think High 大上下文下的精度
自主智能体 V4-Pro Think Max 复杂多步骤任务

Framia.pro 等AI原生平台实现了跨配置的智能路由——将任务复杂度与合适的V4变体和模式精准匹配,从而为创意工作流程同时优化质量与成本。


总结

DeepSeek V4是截至2026年4月最强大的开放权重模型系列。凭借1.6万亿参数(V4-Pro)、MIT许可证、标准100万token上下文窗口、三种推理模式、前沿级编程能力,以及比闭源替代品低10至35倍的定价,它代表了可访问AI能力的真正跨越式进步。