DeepSeek V4 KI-Modell: Vollständige Spezifikationen und Fähigkeiten (2026)

Vollständiger Leitfaden zum DeepSeek V4 KI-Modell: Pro- und Flash-Spezifikationen, Architektur, Benchmarks, Preise, API-Kompatibilität und Empfehlungen nach Anwendungsfall.

DeepSeek V4 KI-Modell im Detail: Vollständige Spezifikationen, Funktionen und Fähigkeiten

Dieser Artikel bündelt alle wichtigen Details zu den Spezifikationen, Funktionen und Fähigkeiten von DeepSeek V4 in einer umfassenden Referenz — der definitiven Anlaufstelle für alle, die die V4-Serie evaluieren, integrieren oder erforschen möchten.

Kerndaten

DeepSeek-V4-Pro

Spezifikation	Details
Architektur	Mixture of Experts (MoE) + Hybrid Attention (CSA + HCA) + mHC
Gesamtparameter	1,6 Billionen
Aktive Parameter (pro Token)	49 Milliarden
Kontextlänge	1.000.000 Token (Standard)
Vortrainingsdaten	Über 32 Billionen vielfältige Token
Lizenz	MIT
Veröffentlichungsdatum	24. April 2026 (Vorschau)
Genauigkeit	FP4 (Experten) + FP8 (andere Gewichte) gemischt
Download-Größe	~865 GB
HuggingFace-ID	deepseek-ai/DeepSeek-V4-Pro
API-Modellname	deepseek-v4-pro
API-Eingabepreis	1,74 $ pro 1 Mio. Token
API-Ausgabepreis	3,48 $ pro 1 Mio. Token

DeepSeek-V4-Flash

Spezifikation	Details
Architektur	MoE + Hybrid Attention (CSA + HCA) + mHC
Gesamtparameter	284 Milliarden
Aktive Parameter (pro Token)	13 Milliarden
Kontextlänge	1.000.000 Token (Standard)
Vortrainingsdaten	Über 32 Billionen vielfältige Token
Lizenz	MIT
Veröffentlichungsdatum	24. April 2026 (Vorschau)
Genauigkeit	FP4 (Experten) + FP8 (andere Gewichte) gemischt
Download-Größe	~160 GB
HuggingFace-ID	deepseek-ai/DeepSeek-V4-Flash
API-Modellname	deepseek-v4-flash
API-Eingabepreis	0,14 $ pro 1 Mio. Token
API-Ausgabepreis	0,28 $ pro 1 Mio. Token

Architektur im Detail

Hybrides Aufmerksamkeitsmodell: CSA + HCA

Die grundlegende Innovation in V4s Architektur kombiniert zwei sich ergänzende Aufmerksamkeitsmechanismen:

Compressed Sparse Attention (CSA): Wendet tokenweise Komprimierung auf Schlüssel-Wert-Paare für moderat entfernten Kontext an und erhält dabei die Genauigkeit, während Speicher- und Rechenanforderungen reduziert werden.

Heavily Compressed Attention (HCA): Wendet aggressive Komprimierung auf sehr weit entfernte Token an und speichert kompakte Zusammenfassungsrepräsentationen, sodass das Modell über den vollen Kontext von einer Million Token „erinnern" kann — ohne den vollen Aufmerksamkeits-Overhead.

Kombinierter Effekt bei 1-Million-Token-Kontext gegenüber V3.2:

Inferenz-FLOPs: auf 27 % von V3.2 reduziert
KV-Cache-Speicher: auf 10 % von V3.2 reduziert

Manifold-Constrained Hyper-Connections (mHC)

Ersetzt im gesamten Netzwerk die standardmäßigen Restverbindungen. Durch die Einschränkung von Gewichtsaktualisierungen auf eine Riemannsche Mannigfaltigkeit stärkt mHC die Signalausbreitung über die Hunderte von Transformer-Schichten von V4-Pro — und ermöglicht stabiles Training bei 1,6 Billionen Parametern.

Muon-Optimierer

Der Muon-Optimierer (Momentum + Orthogonalisierung) ersetzt AdamW. Durch die Orthogonalisierung von Gradientenaktualisierungen:

Entfernt Redundanz zwischen aufeinanderfolgenden Aktualisierungsschritten
Erzielt schnellere Konvergenz (mehr Lernen pro Trainingsschritt)
Bietet größere Stabilität beim Vortraining mit über 32 Billionen Token

Drei Denkmodi

Modus	Beschreibung	API-Konfiguration	Kontextbedarf
Non-think	Direkte Antwort ohne Chain-of-Thought	`thinking: {type: "disabled"}`	Standard
Think High	Strukturiertes Denken mit Token-Budget	`thinking: {type: "enabled", budget_tokens: N}`	Standard
Think Max	Erweiterte, erschöpfende Überlegung	Spezieller System-Prompt + `thinking: {type: "max"}`	384K+ Token

Leistungsauswirkung (V4-Pro):

Benchmark	Non-Think	Think Max
LiveCodeBench	56,8 %	93,5 %
GPQA Diamond	72,9 %	90,1 %
Codeforces Rating	k. A.	3206
HMMT 2026 Feb	31,7 %	95,2 %

Wichtigste Fähigkeiten

Programmierung

Bestes Open-Model-Codeforces-Rating: 3206
LiveCodeBench: 93,5 % (Pass@1)
SWE-bench Verified: 80,6 % (Gelöst)
SWE-bench Pro: 55,4 % (Gelöst)
SWE-bench Multilingual: 76,2 % (Gelöst)
Native Integration mit Claude Code, OpenClaw, OpenCode

Schlussfolgerung und Wissen

MMLU-Pro: 87,5 % (Think Max)
GPQA Diamond: 90,1 % (Think Max)
HLE: 37,7 % (Think Max)
SimpleQA-Verified: 57,9 % (Think Max)
MMMLU (mehrsprachig): 90,3 % (Basis)

Langer Kontext

MRCR 1M (Nadel-im-Heuhaufen): 83,5 % (Think Max) — übertrifft Gemini-3.1-Pro
CorpusQA 1M: 62,0 % (Think Max) — bestes Nicht-Claude-Ergebnis
LongBench-V2 (Basis): 51,5 %

Agentische Aufgaben

Terminal Bench 2.0: 67,9 % (Think Max)
SWE-bench Verified: 80,6 %
MCPAtlas Public: 73,6 % (Think Max) — bestes Open-Ergebnis
BrowseComp: 83,4 % (Think Max)
Toolathlon: 51,8 % (Think Max)

API-Kompatibilität

API-Format	Unterstützung
OpenAI ChatCompletions	✅ Vollständig kompatibel
Anthropic Messages API	✅ Vollständig kompatibel
Tool-/Funktionsaufrufe	✅ Unterstützt
Streaming	✅ Unterstützt
Denkinhalte (`reasoning_content`)	✅ Verfügbar in Think-High/Max-Modi

Verfügbare Modellvarianten

Modell	Typ	Verfügbar auf
DeepSeek-V4-Pro	Instruct (chat-optimiert)	HuggingFace, ModelScope, API
DeepSeek-V4-Pro-Base	Vortrainierte Basis	HuggingFace, ModelScope
DeepSeek-V4-Flash	Instruct (chat-optimiert)	HuggingFace, ModelScope, API
DeepSeek-V4-Flash-Base	Vortrainierte Basis	HuggingFace, ModelScope

Agentische Integration

DeepSeek V4 integriert sich nativ mit:

Claude Code — führender KI-Programmierassistent
OpenClaw — Open-Source-Multi-Agenten-Framework
OpenCode — Open-Source-autonomes Programmiersystem

Es treibt bereits DeepSeeks eigene interne agentische Programmierinfrastruktur an.

Zugriffsmethoden

Web: chat.deepseek.com (Instant-Modus = Flash; Experten-Modus = Pro)
API: api.deepseek.com/v1 — Modell auf deepseek-v4-pro oder deepseek-v4-flash aktualisieren
HuggingFace: Gewichte für lokale Bereitstellung herunterladen
ModelScope: Alternative für schnelleren Zugriff in China
Drittanbieter-Inferenzanbieter: Mehrere Anbieter einschließlich Novita bieten V4-API-Zugang an

Migration von Vorgängermodellen

Alter Modellname	Wird weitergeleitet an	Eingestellt am
deepseek-chat	deepseek-v4-flash (ohne Denken)	24. Juli 2026
deepseek-reasoner	deepseek-v4-flash (mit Denken)	24. Juli 2026

Empfohlene Konfiguration nach Aufgabentyp

Aufgabe	Empfohlene Konfiguration	Begründung
Chat und Q&A	V4-Flash Non-think	Schnell und kostengünstig
Code-Vervollständigung	V4-Flash Non-think	Geschwindigkeit entscheidend
Komplexes Algorithmusdesign	V4-Pro Think High	Ausgewogenes Verhältnis Genauigkeit/Geschwindigkeit
Wettbewerbsprogrammierung	V4-Pro Think Max	Maximale Leistung
Dokumentenzusammenfassung	V4-Flash Non-think	Großvolumige Arbeitslast
Tiefgehende Dokumentenanalyse	V4-Pro Think High	Genauigkeit bei großem Kontext
Autonome Agenten	V4-Pro Think Max	Komplexe mehrstufige Aufgaben

KI-native Plattformen wie Framia.pro implementieren intelligentes Routing über diese Konfigurationen hinweg — sie passen die Aufgabenkomplexität an die richtige V4-Variante und den richtigen Modus an, um sowohl Qualität als auch Kosten für kreative Workflows zu optimieren.

Fazit

DeepSeek V4 ist die leistungsfähigste verfügbare Open-Weight-Modellserie Stand April 2026. Mit 1,6 Billionen Parametern (V4-Pro), MIT-Lizenzierung, einem Standard-Kontextfenster von 1 Million Token, drei Denkmodi, frontier-klassiger Programmierfähigkeit und Preisen, die 10–35-mal unter geschlossenen Alternativen liegen, stellt es eine echte Zäsur im Bereich zugänglicher KI-Fähigkeiten dar.