DeepSeek V4 Modellkarte: Vollständige technische Referenz für Entwickler

Vollständige DeepSeek V4 Modellkarte: technische Spezifikationen, API-Referenz, Preise, Benchmark-Tabelle, lokales Deployment-Guide und technische Details zu V4-Pro und V4-Flash.

by Framia

DeepSeek V4 Modellkarte: Vollständige technische Referenz für Entwickler

Die DeepSeek V4 Modellkarte bündelt alles, was Entwickler zur Einarbeitung in die V4-Serie und zu deren Deployment benötigen. Diese Referenz deckt die vollständigen technischen Spezifikationen, Zugriffsmethoden, bekannte Einschränkungen und Nutzungsrichtlinien für V4-Pro und V4-Flash ab.


Modell-Identität

Feld DeepSeek-V4-Pro DeepSeek-V4-Flash
Modell-ID deepseek-v4-pro deepseek-v4-flash
Entwickler DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Veröffentlichungsdatum 24. April 2026 (Vorschau)
Lizenz MIT License
Modelltyp Nur-Decoder-Transformer, MoE
Architektur Hybrides Attention-System (CSA + HCA) + mHC
Gesamtparameter 1,6 Bill. 284 Mrd.
Aktive Parameter 49 Mrd. 13 Mrd.
Kontextlänge 1.000.000 Token 1.000.000 Token
Genauigkeit FP4 + FP8 gemischt FP4 + FP8 gemischt
Download-Größe ~865 GB ~160 GB

HuggingFace-Repository-Übersicht

Repository Typ URL
DeepSeek-V4-Pro Instruct (RLHF-optimiert) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base Vortrainiertes Basismodell huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash Instruct (RLHF-optimiert) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base Vortrainiertes Basismodell huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API-Referenz

Endpunkte

  • Basis-URL: https://api.deepseek.com/v1
  • Chat-Vervollständigungen: POST /chat/completions
  • Kompatible Formate: OpenAI ChatCompletions API, Anthropic Messages API

Modellnamen (API)

  • deepseek-v4-pro — Vollständiges Flaggschiffmodell
  • deepseek-v4-flash — Schnell und kosteneffizient

⚠️ Veraltet (Einstellung am 24. Juli 2026): deepseek-chat, deepseek-reasoner

Preise

Modell Eingabe Ausgabe
deepseek-v4-flash $0,14 / 1 Mio. Token $0,28 / 1 Mio. Token
deepseek-v4-pro $1,74 / 1 Mio. Token $3,48 / 1 Mio. Token

Architekturdetails

Hybrides Attention-System

Schichttyp Mechanismus Zweck
Schichten für nahe Token Standard-Attention Volle Präzision für nahen Kontext
Schichten für mittleren Abstand Compressed Sparse Attention (CSA) Effizienter Zugriff auf Kontext mittlerer Distanz
Schichten für weiten Abstand Heavily Compressed Attention (HCA) Kompakte Repräsentation weit entfernter Historien

Effizienz gegenüber V3.2 bei 1-Mio.-Kontext:

  • FLOPs: 27 % von V3.2 (73 % Reduktion)
  • KV-Cache: 10 % von V3.2 (90 % Reduktion)

Trainings-Innovationen

Innovation Beschreibung
Optimierer Muon (ersetzt AdamW)
Residualverbindungen mHC (Manifold-Constrained Hyper-Connections)
Vortraining-Daten 32 Bill.+ diverse Token
Post-Training-Phase 1 Expertenspezialisierung via SFT + RL (GRPO)
Post-Training-Phase 2 Einheitliche Konsolidierung via On-Policy-Destillation

Inferenz-Modi

Modus API-Parameter Denkbudget Kontextanforderung
Kein-Denken "thinking": {"type": "disabled"} Keines Standard
Denken (Hoch) "thinking": {"type": "enabled", "budget_tokens": N} Benutzerdefiniert Standard
Denken (Maximum) Spezieller System-Prompt + "thinking": {"type": "max"} Erweitert 384K+ Token empfohlen

Empfohlene Sampling-Parameter

{
  "temperature": 1.0,
  "top_p": 1.0
}

Benchmark-Referenz

V4-Pro-Max vs. Frontier-Modelle

Benchmark V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87,5 % 89,1 % 87,5 % 91,0 %
GPQA Diamond 90,1 % 91,3 % 93,0 % 94,3 %
HLE 37,7 % 40,0 % 39,8 % 44,4 %
LiveCodeBench 93,5 % 88,8 % N/A 91,7 %
Codeforces 3206 N/A 3168 3052
SWE-bench Verified 80,6 % 80,8 % N/A 80,6 %
SWE-bench Pro 55,4 % 57,3 % 57,7 % 54,2 %
Terminal Bench 2.0 67,9 % 65,4 % 75,1 % 68,5 %
MRCR 1M 83,5 % 92,9 % N/A 76,3 %
CorpusQA 1M 62,0 % 71,7 % N/A 53,8 %

Lokales Deployment – Referenz

Konfiguration Speicher VRAM Minimales GPU-Setup
V4-Flash (vollständig) 160 GB ~160 GB 2× H100 80GB
V4-Flash (Q4-Quantisierung) ~80 GB ~80 GB RTX 5090
V4-Pro (vollständig) 865 GB ~865 GB 16× H100 80GB
V4-Pro (Q4-Quantisierung) ~200–400 GB ~200–400 GB 4–8× H100 80GB

Chat-Template

DeepSeek V4 verwendet kein Standard-HuggingFace-Jinja-Chat-Template. Verwenden Sie die benutzerdefinierten Codierungsskripte im encoding/-Ordner jedes Repositorys.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Optionen: "no_think", "thinking", "max_thinking"

Bekannte Einschränkungen

  • Nur Text zum Launch: Kein natives Bild-, Audio- oder Video-Verständnis im April-2026-Vorschau-Release
  • Vorschau-Status: Randfälle können auftreten; DeepSeek empfiehlt, offizielle Kanäle für Updates zu verfolgen
  • Think Max Kontextanforderung: Kontextfenster von 384K+ Token für optimale Think-Max-Leistung erforderlich
  • Großer Download: V4-Pro mit 865 GB erfordert erhebliche Bandbreite und Speicherkapazität für das lokale Deployment
  • Chat-Template: Nicht standardisierte Codierung erfordert Repository-bereitgestellte Skripte statt Standard-HuggingFace-Pipeline-Tools

Kontakt und Support

  • Offizieller Twitter: @deepseek_ai
  • GitHub: github.com/deepseek-ai
  • HuggingFace: huggingface.co/deepseek-ai
  • API-Dokumentation: api-docs.deepseek.com
  • E-Mail: service@deepseek.com
  • Web-Chat: chat.deepseek.com

Für Entwickler, die auf Plattformen wie Framia.pro aufbauen, die die Fähigkeiten von DeepSeek V4 integrieren, dient diese Modellkarte als maßgebliche technische Referenz für alle Integrationsentscheidungen.


Zitation

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}