DeepSeek V4 KI-Modell im Detail: Vollständige Spezifikationen, Funktionen und Fähigkeiten
Dieser Artikel bündelt alle wichtigen Details zu den Spezifikationen, Funktionen und Fähigkeiten von DeepSeek V4 in einer umfassenden Referenz — der definitiven Anlaufstelle für alle, die die V4-Serie evaluieren, integrieren oder erforschen möchten.
Kerndaten
DeepSeek-V4-Pro
| Spezifikation | Details |
|---|---|
| Architektur | Mixture of Experts (MoE) + Hybrid Attention (CSA + HCA) + mHC |
| Gesamtparameter | 1,6 Billionen |
| Aktive Parameter (pro Token) | 49 Milliarden |
| Kontextlänge | 1.000.000 Token (Standard) |
| Vortrainingsdaten | Über 32 Billionen vielfältige Token |
| Lizenz | MIT |
| Veröffentlichungsdatum | 24. April 2026 (Vorschau) |
| Genauigkeit | FP4 (Experten) + FP8 (andere Gewichte) gemischt |
| Download-Größe | ~865 GB |
| HuggingFace-ID | deepseek-ai/DeepSeek-V4-Pro |
| API-Modellname | deepseek-v4-pro |
| API-Eingabepreis | 1,74 $ pro 1 Mio. Token |
| API-Ausgabepreis | 3,48 $ pro 1 Mio. Token |
DeepSeek-V4-Flash
| Spezifikation | Details |
|---|---|
| Architektur | MoE + Hybrid Attention (CSA + HCA) + mHC |
| Gesamtparameter | 284 Milliarden |
| Aktive Parameter (pro Token) | 13 Milliarden |
| Kontextlänge | 1.000.000 Token (Standard) |
| Vortrainingsdaten | Über 32 Billionen vielfältige Token |
| Lizenz | MIT |
| Veröffentlichungsdatum | 24. April 2026 (Vorschau) |
| Genauigkeit | FP4 (Experten) + FP8 (andere Gewichte) gemischt |
| Download-Größe | ~160 GB |
| HuggingFace-ID | deepseek-ai/DeepSeek-V4-Flash |
| API-Modellname | deepseek-v4-flash |
| API-Eingabepreis | 0,14 $ pro 1 Mio. Token |
| API-Ausgabepreis | 0,28 $ pro 1 Mio. Token |
Architektur im Detail
Hybrides Aufmerksamkeitsmodell: CSA + HCA
Die grundlegende Innovation in V4s Architektur kombiniert zwei sich ergänzende Aufmerksamkeitsmechanismen:
Compressed Sparse Attention (CSA): Wendet tokenweise Komprimierung auf Schlüssel-Wert-Paare für moderat entfernten Kontext an und erhält dabei die Genauigkeit, während Speicher- und Rechenanforderungen reduziert werden.
Heavily Compressed Attention (HCA): Wendet aggressive Komprimierung auf sehr weit entfernte Token an und speichert kompakte Zusammenfassungsrepräsentationen, sodass das Modell über den vollen Kontext von einer Million Token „erinnern" kann — ohne den vollen Aufmerksamkeits-Overhead.
Kombinierter Effekt bei 1-Million-Token-Kontext gegenüber V3.2:
- Inferenz-FLOPs: auf 27 % von V3.2 reduziert
- KV-Cache-Speicher: auf 10 % von V3.2 reduziert
Manifold-Constrained Hyper-Connections (mHC)
Ersetzt im gesamten Netzwerk die standardmäßigen Restverbindungen. Durch die Einschränkung von Gewichtsaktualisierungen auf eine Riemannsche Mannigfaltigkeit stärkt mHC die Signalausbreitung über die Hunderte von Transformer-Schichten von V4-Pro — und ermöglicht stabiles Training bei 1,6 Billionen Parametern.
Muon-Optimierer
Der Muon-Optimierer (Momentum + Orthogonalisierung) ersetzt AdamW. Durch die Orthogonalisierung von Gradientenaktualisierungen:
- Entfernt Redundanz zwischen aufeinanderfolgenden Aktualisierungsschritten
- Erzielt schnellere Konvergenz (mehr Lernen pro Trainingsschritt)
- Bietet größere Stabilität beim Vortraining mit über 32 Billionen Token
Drei Denkmodi
| Modus | Beschreibung | API-Konfiguration | Kontextbedarf |
|---|---|---|---|
| Non-think | Direkte Antwort ohne Chain-of-Thought | thinking: {type: "disabled"} |
Standard |
| Think High | Strukturiertes Denken mit Token-Budget | thinking: {type: "enabled", budget_tokens: N} |
Standard |
| Think Max | Erweiterte, erschöpfende Überlegung | Spezieller System-Prompt + thinking: {type: "max"} |
384K+ Token |
Leistungsauswirkung (V4-Pro):
| Benchmark | Non-Think | Think Max |
|---|---|---|
| LiveCodeBench | 56,8 % | 93,5 % |
| GPQA Diamond | 72,9 % | 90,1 % |
| Codeforces Rating | k. A. | 3206 |
| HMMT 2026 Feb | 31,7 % | 95,2 % |
Wichtigste Fähigkeiten
Programmierung
- Bestes Open-Model-Codeforces-Rating: 3206
- LiveCodeBench: 93,5 % (Pass@1)
- SWE-bench Verified: 80,6 % (Gelöst)
- SWE-bench Pro: 55,4 % (Gelöst)
- SWE-bench Multilingual: 76,2 % (Gelöst)
- Native Integration mit Claude Code, OpenClaw, OpenCode
Schlussfolgerung und Wissen
- MMLU-Pro: 87,5 % (Think Max)
- GPQA Diamond: 90,1 % (Think Max)
- HLE: 37,7 % (Think Max)
- SimpleQA-Verified: 57,9 % (Think Max)
- MMMLU (mehrsprachig): 90,3 % (Basis)
Langer Kontext
- MRCR 1M (Nadel-im-Heuhaufen): 83,5 % (Think Max) — übertrifft Gemini-3.1-Pro
- CorpusQA 1M: 62,0 % (Think Max) — bestes Nicht-Claude-Ergebnis
- LongBench-V2 (Basis): 51,5 %
Agentische Aufgaben
- Terminal Bench 2.0: 67,9 % (Think Max)
- SWE-bench Verified: 80,6 %
- MCPAtlas Public: 73,6 % (Think Max) — bestes Open-Ergebnis
- BrowseComp: 83,4 % (Think Max)
- Toolathlon: 51,8 % (Think Max)
API-Kompatibilität
| API-Format | Unterstützung |
|---|---|
| OpenAI ChatCompletions | ✅ Vollständig kompatibel |
| Anthropic Messages API | ✅ Vollständig kompatibel |
| Tool-/Funktionsaufrufe | ✅ Unterstützt |
| Streaming | ✅ Unterstützt |
Denkinhalte (reasoning_content) |
✅ Verfügbar in Think-High/Max-Modi |
Verfügbare Modellvarianten
| Modell | Typ | Verfügbar auf |
|---|---|---|
| DeepSeek-V4-Pro | Instruct (chat-optimiert) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Pro-Base | Vortrainierte Basis | HuggingFace, ModelScope |
| DeepSeek-V4-Flash | Instruct (chat-optimiert) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Flash-Base | Vortrainierte Basis | HuggingFace, ModelScope |
Agentische Integration
DeepSeek V4 integriert sich nativ mit:
- Claude Code — führender KI-Programmierassistent
- OpenClaw — Open-Source-Multi-Agenten-Framework
- OpenCode — Open-Source-autonomes Programmiersystem
Es treibt bereits DeepSeeks eigene interne agentische Programmierinfrastruktur an.
Zugriffsmethoden
- Web: chat.deepseek.com (Instant-Modus = Flash; Experten-Modus = Pro)
- API: api.deepseek.com/v1 — Modell auf
deepseek-v4-prooderdeepseek-v4-flashaktualisieren - HuggingFace: Gewichte für lokale Bereitstellung herunterladen
- ModelScope: Alternative für schnelleren Zugriff in China
- Drittanbieter-Inferenzanbieter: Mehrere Anbieter einschließlich Novita bieten V4-API-Zugang an
Migration von Vorgängermodellen
| Alter Modellname | Wird weitergeleitet an | Eingestellt am |
|---|---|---|
| deepseek-chat | deepseek-v4-flash (ohne Denken) | 24. Juli 2026 |
| deepseek-reasoner | deepseek-v4-flash (mit Denken) | 24. Juli 2026 |
Empfohlene Konfiguration nach Aufgabentyp
| Aufgabe | Empfohlene Konfiguration | Begründung |
|---|---|---|
| Chat und Q&A | V4-Flash Non-think | Schnell und kostengünstig |
| Code-Vervollständigung | V4-Flash Non-think | Geschwindigkeit entscheidend |
| Komplexes Algorithmusdesign | V4-Pro Think High | Ausgewogenes Verhältnis Genauigkeit/Geschwindigkeit |
| Wettbewerbsprogrammierung | V4-Pro Think Max | Maximale Leistung |
| Dokumentenzusammenfassung | V4-Flash Non-think | Großvolumige Arbeitslast |
| Tiefgehende Dokumentenanalyse | V4-Pro Think High | Genauigkeit bei großem Kontext |
| Autonome Agenten | V4-Pro Think Max | Komplexe mehrstufige Aufgaben |
KI-native Plattformen wie Framia.pro implementieren intelligentes Routing über diese Konfigurationen hinweg — sie passen die Aufgabenkomplexität an die richtige V4-Variante und den richtigen Modus an, um sowohl Qualität als auch Kosten für kreative Workflows zu optimieren.
Fazit
DeepSeek V4 ist die leistungsfähigste verfügbare Open-Weight-Modellserie Stand April 2026. Mit 1,6 Billionen Parametern (V4-Pro), MIT-Lizenzierung, einem Standard-Kontextfenster von 1 Million Token, drei Denkmodi, frontier-klassiger Programmierfähigkeit und Preisen, die 10–35-mal unter geschlossenen Alternativen liegen, stellt es eine echte Zäsur im Bereich zugänglicher KI-Fähigkeiten dar.