Vollständige DeepSeek V4 Modellkarte: technische Spezifikationen, API-Referenz, Preise, Benchmark-Tabelle, lokales Deployment-Guide und technische Details zu V4-Pro und V4-Flash.
DeepSeek V4 Modellkarte: Vollständige technische Referenz für Entwickler
Die DeepSeek V4 Modellkarte bündelt alles, was Entwickler zur Einarbeitung in die V4-Serie und zu deren Deployment benötigen. Diese Referenz deckt die vollständigen technischen Spezifikationen, Zugriffsmethoden, bekannte Einschränkungen und Nutzungsrichtlinien für V4-Pro und V4-Flash ab.
Modell-Identität
| Feld |
DeepSeek-V4-Pro |
DeepSeek-V4-Flash |
| Modell-ID |
deepseek-v4-pro |
deepseek-v4-flash |
| Entwickler |
DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.) |
|
| Veröffentlichungsdatum |
24. April 2026 (Vorschau) |
|
| Lizenz |
MIT License |
|
| Modelltyp |
Nur-Decoder-Transformer, MoE |
|
| Architektur |
Hybrides Attention-System (CSA + HCA) + mHC |
|
| Gesamtparameter |
1,6 Bill. |
284 Mrd. |
| Aktive Parameter |
49 Mrd. |
13 Mrd. |
| Kontextlänge |
1.000.000 Token |
1.000.000 Token |
| Genauigkeit |
FP4 + FP8 gemischt |
FP4 + FP8 gemischt |
| Download-Größe |
~865 GB |
~160 GB |
HuggingFace-Repository-Übersicht
| Repository |
Typ |
URL |
| DeepSeek-V4-Pro |
Instruct (RLHF-optimiert) |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro |
| DeepSeek-V4-Pro-Base |
Vortrainiertes Basismodell |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base |
| DeepSeek-V4-Flash |
Instruct (RLHF-optimiert) |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash |
| DeepSeek-V4-Flash-Base |
Vortrainiertes Basismodell |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base |
API-Referenz
Endpunkte
- Basis-URL:
https://api.deepseek.com/v1
- Chat-Vervollständigungen:
POST /chat/completions
- Kompatible Formate: OpenAI ChatCompletions API, Anthropic Messages API
Modellnamen (API)
deepseek-v4-pro — Vollständiges Flaggschiffmodell
deepseek-v4-flash — Schnell und kosteneffizient
⚠️ Veraltet (Einstellung am 24. Juli 2026): deepseek-chat, deepseek-reasoner
Preise
| Modell |
Eingabe |
Ausgabe |
| deepseek-v4-flash |
$0,14 / 1 Mio. Token |
$0,28 / 1 Mio. Token |
| deepseek-v4-pro |
$1,74 / 1 Mio. Token |
$3,48 / 1 Mio. Token |
Architekturdetails
Hybrides Attention-System
| Schichttyp |
Mechanismus |
Zweck |
| Schichten für nahe Token |
Standard-Attention |
Volle Präzision für nahen Kontext |
| Schichten für mittleren Abstand |
Compressed Sparse Attention (CSA) |
Effizienter Zugriff auf Kontext mittlerer Distanz |
| Schichten für weiten Abstand |
Heavily Compressed Attention (HCA) |
Kompakte Repräsentation weit entfernter Historien |
Effizienz gegenüber V3.2 bei 1-Mio.-Kontext:
- FLOPs: 27 % von V3.2 (73 % Reduktion)
- KV-Cache: 10 % von V3.2 (90 % Reduktion)
Trainings-Innovationen
| Innovation |
Beschreibung |
| Optimierer |
Muon (ersetzt AdamW) |
| Residualverbindungen |
mHC (Manifold-Constrained Hyper-Connections) |
| Vortraining-Daten |
32 Bill.+ diverse Token |
| Post-Training-Phase 1 |
Expertenspezialisierung via SFT + RL (GRPO) |
| Post-Training-Phase 2 |
Einheitliche Konsolidierung via On-Policy-Destillation |
Inferenz-Modi
| Modus |
API-Parameter |
Denkbudget |
Kontextanforderung |
| Kein-Denken |
"thinking": {"type": "disabled"} |
Keines |
Standard |
| Denken (Hoch) |
"thinking": {"type": "enabled", "budget_tokens": N} |
Benutzerdefiniert |
Standard |
| Denken (Maximum) |
Spezieller System-Prompt + "thinking": {"type": "max"} |
Erweitert |
384K+ Token empfohlen |
Empfohlene Sampling-Parameter
{
"temperature": 1.0,
"top_p": 1.0
}
Benchmark-Referenz
V4-Pro-Max vs. Frontier-Modelle
| Benchmark |
V4-Pro Max |
Opus 4.6 Max |
GPT-5.4 xHigh |
Gemini-3.1-Pro High |
| MMLU-Pro |
87,5 % |
89,1 % |
87,5 % |
91,0 % |
| GPQA Diamond |
90,1 % |
91,3 % |
93,0 % |
94,3 % |
| HLE |
37,7 % |
40,0 % |
39,8 % |
44,4 % |
| LiveCodeBench |
93,5 % |
88,8 % |
N/A |
91,7 % |
| Codeforces |
3206 |
N/A |
3168 |
3052 |
| SWE-bench Verified |
80,6 % |
80,8 % |
N/A |
80,6 % |
| SWE-bench Pro |
55,4 % |
57,3 % |
57,7 % |
54,2 % |
| Terminal Bench 2.0 |
67,9 % |
65,4 % |
75,1 % |
68,5 % |
| MRCR 1M |
83,5 % |
92,9 % |
N/A |
76,3 % |
| CorpusQA 1M |
62,0 % |
71,7 % |
N/A |
53,8 % |
Lokales Deployment – Referenz
| Konfiguration |
Speicher |
VRAM |
Minimales GPU-Setup |
| V4-Flash (vollständig) |
160 GB |
~160 GB |
2× H100 80GB |
| V4-Flash (Q4-Quantisierung) |
~80 GB |
~80 GB |
RTX 5090 |
| V4-Pro (vollständig) |
865 GB |
~865 GB |
16× H100 80GB |
| V4-Pro (Q4-Quantisierung) |
~200–400 GB |
~200–400 GB |
4–8× H100 80GB |
Chat-Template
DeepSeek V4 verwendet kein Standard-HuggingFace-Jinja-Chat-Template. Verwenden Sie die benutzerdefinierten Codierungsskripte im encoding/-Ordner jedes Repositorys.
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
prompt = encode_messages(messages, thinking_mode="no_think")
# Optionen: "no_think", "thinking", "max_thinking"
Bekannte Einschränkungen
- Nur Text zum Launch: Kein natives Bild-, Audio- oder Video-Verständnis im April-2026-Vorschau-Release
- Vorschau-Status: Randfälle können auftreten; DeepSeek empfiehlt, offizielle Kanäle für Updates zu verfolgen
- Think Max Kontextanforderung: Kontextfenster von 384K+ Token für optimale Think-Max-Leistung erforderlich
- Großer Download: V4-Pro mit 865 GB erfordert erhebliche Bandbreite und Speicherkapazität für das lokale Deployment
- Chat-Template: Nicht standardisierte Codierung erfordert Repository-bereitgestellte Skripte statt Standard-HuggingFace-Pipeline-Tools
Kontakt und Support
- Offizieller Twitter: @deepseek_ai
- GitHub: github.com/deepseek-ai
- HuggingFace: huggingface.co/deepseek-ai
- API-Dokumentation: api-docs.deepseek.com
- E-Mail: service@deepseek.com
- Web-Chat: chat.deepseek.com
Für Entwickler, die auf Plattformen wie Framia.pro aufbauen, die die Fähigkeiten von DeepSeek V4 integrieren, dient diese Modellkarte als maßgebliche technische Referenz für alle Integrationsentscheidungen.
Zitation
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}