DeepSeek V4 Modellkarte: Vollständige technische Spezifikation (2026)

Vollständige DeepSeek V4 Modellkarte: technische Spezifikationen, API-Referenz, Preise, Benchmark-Tabelle, lokales Deployment-Guide und technische Details zu V4-Pro und V4-Flash.

DeepSeek V4 Modellkarte: Vollständige technische Referenz für Entwickler

Die DeepSeek V4 Modellkarte bündelt alles, was Entwickler zur Einarbeitung in die V4-Serie und zu deren Deployment benötigen. Diese Referenz deckt die vollständigen technischen Spezifikationen, Zugriffsmethoden, bekannte Einschränkungen und Nutzungsrichtlinien für V4-Pro und V4-Flash ab.

Modell-Identität

Feld	DeepSeek-V4-Pro	DeepSeek-V4-Flash
Modell-ID	`deepseek-v4-pro`	`deepseek-v4-flash`
Entwickler	DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Veröffentlichungsdatum	24. April 2026 (Vorschau)
Lizenz	MIT License
Modelltyp	Nur-Decoder-Transformer, MoE
Architektur	Hybrides Attention-System (CSA + HCA) + mHC
Gesamtparameter	1,6 Bill.	284 Mrd.
Aktive Parameter	49 Mrd.	13 Mrd.
Kontextlänge	1.000.000 Token	1.000.000 Token
Genauigkeit	FP4 + FP8 gemischt	FP4 + FP8 gemischt
Download-Größe	~865 GB	~160 GB

HuggingFace-Repository-Übersicht

Repository	Typ	URL
DeepSeek-V4-Pro	Instruct (RLHF-optimiert)	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	Vortrainiertes Basismodell	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	Instruct (RLHF-optimiert)	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	Vortrainiertes Basismodell	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API-Referenz

Endpunkte

Basis-URL: https://api.deepseek.com/v1
Chat-Vervollständigungen: POST /chat/completions
Kompatible Formate: OpenAI ChatCompletions API, Anthropic Messages API

Modellnamen (API)

deepseek-v4-pro — Vollständiges Flaggschiffmodell
deepseek-v4-flash — Schnell und kosteneffizient

⚠️ Veraltet (Einstellung am 24. Juli 2026): deepseek-chat, deepseek-reasoner

Preise

Modell	Eingabe	Ausgabe
deepseek-v4-flash	$0,14 / 1 Mio. Token	$0,28 / 1 Mio. Token
deepseek-v4-pro	$1,74 / 1 Mio. Token	$3,48 / 1 Mio. Token

Architekturdetails

Hybrides Attention-System

Schichttyp	Mechanismus	Zweck
Schichten für nahe Token	Standard-Attention	Volle Präzision für nahen Kontext
Schichten für mittleren Abstand	Compressed Sparse Attention (CSA)	Effizienter Zugriff auf Kontext mittlerer Distanz
Schichten für weiten Abstand	Heavily Compressed Attention (HCA)	Kompakte Repräsentation weit entfernter Historien

Effizienz gegenüber V3.2 bei 1-Mio.-Kontext:

FLOPs: 27 % von V3.2 (73 % Reduktion)
KV-Cache: 10 % von V3.2 (90 % Reduktion)

Trainings-Innovationen

Innovation	Beschreibung
Optimierer	Muon (ersetzt AdamW)
Residualverbindungen	mHC (Manifold-Constrained Hyper-Connections)
Vortraining-Daten	32 Bill.+ diverse Token
Post-Training-Phase 1	Expertenspezialisierung via SFT + RL (GRPO)
Post-Training-Phase 2	Einheitliche Konsolidierung via On-Policy-Destillation

Inferenz-Modi

Modus	API-Parameter	Denkbudget	Kontextanforderung
Kein-Denken	`"thinking": {"type": "disabled"}`	Keines	Standard
Denken (Hoch)	`"thinking": {"type": "enabled", "budget_tokens": N}`	Benutzerdefiniert	Standard
Denken (Maximum)	Spezieller System-Prompt + `"thinking": {"type": "max"}`	Erweitert	384K+ Token empfohlen

Empfohlene Sampling-Parameter

{
  "temperature": 1.0,
  "top_p": 1.0
}

Benchmark-Referenz

V4-Pro-Max vs. Frontier-Modelle

Benchmark	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87,5 %	89,1 %	87,5 %	91,0 %
GPQA Diamond	90,1 %	91,3 %	93,0 %	94,3 %
HLE	37,7 %	40,0 %	39,8 %	44,4 %
LiveCodeBench	93,5 %	88,8 %	N/A	91,7 %
Codeforces	3206	N/A	3168	3052
SWE-bench Verified	80,6 %	80,8 %	N/A	80,6 %
SWE-bench Pro	55,4 %	57,3 %	57,7 %	54,2 %
Terminal Bench 2.0	67,9 %	65,4 %	75,1 %	68,5 %
MRCR 1M	83,5 %	92,9 %	N/A	76,3 %
CorpusQA 1M	62,0 %	71,7 %	N/A	53,8 %

Lokales Deployment – Referenz

Konfiguration	Speicher	VRAM	Minimales GPU-Setup
V4-Flash (vollständig)	160 GB	~160 GB	2× H100 80GB
V4-Flash (Q4-Quantisierung)	~80 GB	~80 GB	RTX 5090
V4-Pro (vollständig)	865 GB	~865 GB	16× H100 80GB
V4-Pro (Q4-Quantisierung)	~200–400 GB	~200–400 GB	4–8× H100 80GB

Chat-Template

DeepSeek V4 verwendet kein Standard-HuggingFace-Jinja-Chat-Template. Verwenden Sie die benutzerdefinierten Codierungsskripte im encoding/-Ordner jedes Repositorys.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Optionen: "no_think", "thinking", "max_thinking"

Bekannte Einschränkungen

Nur Text zum Launch: Kein natives Bild-, Audio- oder Video-Verständnis im April-2026-Vorschau-Release
Vorschau-Status: Randfälle können auftreten; DeepSeek empfiehlt, offizielle Kanäle für Updates zu verfolgen
Think Max Kontextanforderung: Kontextfenster von 384K+ Token für optimale Think-Max-Leistung erforderlich
Großer Download: V4-Pro mit 865 GB erfordert erhebliche Bandbreite und Speicherkapazität für das lokale Deployment
Chat-Template: Nicht standardisierte Codierung erfordert Repository-bereitgestellte Skripte statt Standard-HuggingFace-Pipeline-Tools

Kontakt und Support

Offizieller Twitter: @deepseek_ai
GitHub: github.com/deepseek-ai
HuggingFace: huggingface.co/deepseek-ai
API-Dokumentation: api-docs.deepseek.com
E-Mail: service@deepseek.com
Web-Chat: chat.deepseek.com

Für Entwickler, die auf Plattformen wie Framia.pro aufbauen, die die Fähigkeiten von DeepSeek V4 integrieren, dient diese Modellkarte als maßgebliche technische Referenz für alle Integrationsentscheidungen.

Zitation

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}