DeepSeek V4 API:开发者完整集成指南

学习如何将 DeepSeek V4 集成到您的应用中。涵盖 API 配置、模型名称、思维模式、OpenAI 兼容性及 Python 代码示例,快速上手。

by Framia

DeepSeek V4 API:开发者完整集成指南

DeepSeek V4 的 API 已于 2026 年 4 月 24 日 正式上线,专为开发者打造极致顺畅的使用体验:无需任何新 SDK,完全兼容 OpenAI ChatCompletions 和 Anthropic API,只需修改一个模型名称字符串即可无缝接入现有集成。

本指南涵盖今日起即可使用 DeepSeek V4 构建应用所需的一切内容。


快速开始

基础 URL 与认证

DeepSeek API 使用与之前版本相同的基础 URL:

https://api.deepseek.com/v1

认证通过 Authorization 请求头中的 Bearer Token 完成——您现有的 DeepSeek API Key 可直接使用,无需更改。


模型名称

model 参数更新为以下之一:

使用场景 模型名称
全能旗舰模型 deepseek-v4-pro
快速、高性价比 deepseek-v4-flash

⚠️ 废弃警告: deepseek-chatdeepseek-reasoner 目前分别路由至 V4-Flash(非思考模式和思考模式),但将于 2026 年 7 月 24 日(UTC 15:59)正式下线。请在此日期之前完成迁移。


OpenAI 兼容集成

如果您已在使用 OpenAI Python SDK 或 ChatCompletions 格式,切换到 DeepSeek V4 只需一行改动:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com/v1"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",  # 或 "deepseek-v4-pro"
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain the Hybrid Attention Architecture in DeepSeek V4."}
    ],
    temperature=1.0,
    top_p=1.0
)

print(response.choices[0].message.content)

DeepSeek 建议将 temperature=1.0, top_p=1.0 作为两个模型的默认采样参数。


Anthropic 兼容集成

DeepSeek V4 同样支持 Anthropic Messages API 格式,可在 Anthropic 兼容的代码库中直接替代 Claude:

import anthropic

client = anthropic.Anthropic(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com"
)

message = client.messages.create(
    model="deepseek-v4-pro",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "Write a Python function to parse nested JSON."}
    ]
)

print(message.content[0].text)

三种推理模式的使用方法

DeepSeek V4 支持三种推理深度级别,通过 thinking 参数进行控制:

非思考模式(默认——快速)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Summarize this paragraph: ..."}],
    extra_body={"thinking": {"type": "disabled"}}
)

Think High 模式(均衡)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Plan a microservices migration strategy."}],
    extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)

Think Max 模式(最强推理)

Think Max 使用特殊的系统提示词,且需要至少 384K Token 的上下文窗口余量。请参阅官方思考模式指南获取确切的系统提示词。


上下文窗口

两个模型默认均支持 1,000,000 Token(1M)上下文窗口。这是目前通过 API 可用的所有开放权重模型中最大的默认上下文窗口。

对于 Think Max 模式,DeepSeek 建议将上下文窗口设置为至少 384K Token,以容纳扩展推理链。


流式响应

所有推理模式下,两个模型均支持流式输出:

stream = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Write a blog post about quantum computing."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

处理思考内容

在 Think High 和 Think Max 模式下,模型会在主要响应内容之外返回 reasoning_content 字段:

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Solve this step by step: ..."}],
    extra_body={"thinking": {"type": "enabled"}}
)

thinking = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content

print(f"Reasoning: {thinking[:200]}...")
print(f"Answer: {answer}")

请求限制与最佳实践

  • Temperature: 使用 DeepSeek 推荐的 temperature=1.0 以获得最佳性能
  • 重试: 针对 429 Too Many Requests 错误实现指数退避重试
  • 流式输出: 长输出内容始终使用流式模式以避免超时
  • 上下文管理: 多轮对话中,适当裁剪旧上下文以控制 Token 用量
  • 模型路由: 考虑将简单任务路由至 V4-Flash,复杂任务路由至 V4-Pro,以优化成本

与 Agent 框架集成

DeepSeek V4 与主流 Agent 框架原生集成:

  • Claude Code — 使用 deepseek-v4-pro 作为底层模型
  • OpenClaw — 提供即插即用的替换配置
  • OpenCode — 自 V4 发布起官方支持

对于 Framia.pro 等 AI 平台和创意工具,DeepSeek V4 的 API 兼容性意味着集成前沿 AI 能力所需的工程投入极低——只需更新模型名称,即可立即上线。


总结

DeepSeek V4 API 专为零阻力采用而设计。兼容 OpenAI 和 Anthropic 意味着大多数现有集成只需更改模型名称即可完成迁移。结合市场上最低的前沿级定价、三种灵活的推理模式以及 1M Token 默认上下文窗口,它是 2026 年最具开发者友好性的 AI API 之一。