DeepSeek V4 KI-Modell im Detail: Vollständige Spezifikationen, Funktionen und Fähigkeiten

Vollständiger Leitfaden zum DeepSeek V4 KI-Modell: Pro- und Flash-Spezifikationen, Architektur, Benchmarks, Preise, API-Kompatibilität und Empfehlungen nach Anwendungsfall.

by Framia

DeepSeek V4 KI-Modell im Detail: Vollständige Spezifikationen, Funktionen und Fähigkeiten

Dieser Artikel bündelt alle wichtigen Details zu den Spezifikationen, Funktionen und Fähigkeiten von DeepSeek V4 in einer umfassenden Referenz — der definitiven Anlaufstelle für alle, die die V4-Serie evaluieren, integrieren oder erforschen möchten.


Kerndaten

DeepSeek-V4-Pro

Spezifikation Details
Architektur Mixture of Experts (MoE) + Hybrid Attention (CSA + HCA) + mHC
Gesamtparameter 1,6 Billionen
Aktive Parameter (pro Token) 49 Milliarden
Kontextlänge 1.000.000 Token (Standard)
Vortrainingsdaten Über 32 Billionen vielfältige Token
Lizenz MIT
Veröffentlichungsdatum 24. April 2026 (Vorschau)
Genauigkeit FP4 (Experten) + FP8 (andere Gewichte) gemischt
Download-Größe ~865 GB
HuggingFace-ID deepseek-ai/DeepSeek-V4-Pro
API-Modellname deepseek-v4-pro
API-Eingabepreis 1,74 $ pro 1 Mio. Token
API-Ausgabepreis 3,48 $ pro 1 Mio. Token

DeepSeek-V4-Flash

Spezifikation Details
Architektur MoE + Hybrid Attention (CSA + HCA) + mHC
Gesamtparameter 284 Milliarden
Aktive Parameter (pro Token) 13 Milliarden
Kontextlänge 1.000.000 Token (Standard)
Vortrainingsdaten Über 32 Billionen vielfältige Token
Lizenz MIT
Veröffentlichungsdatum 24. April 2026 (Vorschau)
Genauigkeit FP4 (Experten) + FP8 (andere Gewichte) gemischt
Download-Größe ~160 GB
HuggingFace-ID deepseek-ai/DeepSeek-V4-Flash
API-Modellname deepseek-v4-flash
API-Eingabepreis 0,14 $ pro 1 Mio. Token
API-Ausgabepreis 0,28 $ pro 1 Mio. Token

Architektur im Detail

Hybrides Aufmerksamkeitsmodell: CSA + HCA

Die grundlegende Innovation in V4s Architektur kombiniert zwei sich ergänzende Aufmerksamkeitsmechanismen:

Compressed Sparse Attention (CSA): Wendet tokenweise Komprimierung auf Schlüssel-Wert-Paare für moderat entfernten Kontext an und erhält dabei die Genauigkeit, während Speicher- und Rechenanforderungen reduziert werden.

Heavily Compressed Attention (HCA): Wendet aggressive Komprimierung auf sehr weit entfernte Token an und speichert kompakte Zusammenfassungsrepräsentationen, sodass das Modell über den vollen Kontext von einer Million Token „erinnern" kann — ohne den vollen Aufmerksamkeits-Overhead.

Kombinierter Effekt bei 1-Million-Token-Kontext gegenüber V3.2:

  • Inferenz-FLOPs: auf 27 % von V3.2 reduziert
  • KV-Cache-Speicher: auf 10 % von V3.2 reduziert

Manifold-Constrained Hyper-Connections (mHC)

Ersetzt im gesamten Netzwerk die standardmäßigen Restverbindungen. Durch die Einschränkung von Gewichtsaktualisierungen auf eine Riemannsche Mannigfaltigkeit stärkt mHC die Signalausbreitung über die Hunderte von Transformer-Schichten von V4-Pro — und ermöglicht stabiles Training bei 1,6 Billionen Parametern.

Muon-Optimierer

Der Muon-Optimierer (Momentum + Orthogonalisierung) ersetzt AdamW. Durch die Orthogonalisierung von Gradientenaktualisierungen:

  • Entfernt Redundanz zwischen aufeinanderfolgenden Aktualisierungsschritten
  • Erzielt schnellere Konvergenz (mehr Lernen pro Trainingsschritt)
  • Bietet größere Stabilität beim Vortraining mit über 32 Billionen Token

Drei Denkmodi

Modus Beschreibung API-Konfiguration Kontextbedarf
Non-think Direkte Antwort ohne Chain-of-Thought thinking: {type: "disabled"} Standard
Think High Strukturiertes Denken mit Token-Budget thinking: {type: "enabled", budget_tokens: N} Standard
Think Max Erweiterte, erschöpfende Überlegung Spezieller System-Prompt + thinking: {type: "max"} 384K+ Token

Leistungsauswirkung (V4-Pro):

Benchmark Non-Think Think Max
LiveCodeBench 56,8 % 93,5 %
GPQA Diamond 72,9 % 90,1 %
Codeforces Rating k. A. 3206
HMMT 2026 Feb 31,7 % 95,2 %

Wichtigste Fähigkeiten

Programmierung

  • Bestes Open-Model-Codeforces-Rating: 3206
  • LiveCodeBench: 93,5 % (Pass@1)
  • SWE-bench Verified: 80,6 % (Gelöst)
  • SWE-bench Pro: 55,4 % (Gelöst)
  • SWE-bench Multilingual: 76,2 % (Gelöst)
  • Native Integration mit Claude Code, OpenClaw, OpenCode

Schlussfolgerung und Wissen

  • MMLU-Pro: 87,5 % (Think Max)
  • GPQA Diamond: 90,1 % (Think Max)
  • HLE: 37,7 % (Think Max)
  • SimpleQA-Verified: 57,9 % (Think Max)
  • MMMLU (mehrsprachig): 90,3 % (Basis)

Langer Kontext

  • MRCR 1M (Nadel-im-Heuhaufen): 83,5 % (Think Max) — übertrifft Gemini-3.1-Pro
  • CorpusQA 1M: 62,0 % (Think Max) — bestes Nicht-Claude-Ergebnis
  • LongBench-V2 (Basis): 51,5 %

Agentische Aufgaben

  • Terminal Bench 2.0: 67,9 % (Think Max)
  • SWE-bench Verified: 80,6 %
  • MCPAtlas Public: 73,6 % (Think Max) — bestes Open-Ergebnis
  • BrowseComp: 83,4 % (Think Max)
  • Toolathlon: 51,8 % (Think Max)

API-Kompatibilität

API-Format Unterstützung
OpenAI ChatCompletions ✅ Vollständig kompatibel
Anthropic Messages API ✅ Vollständig kompatibel
Tool-/Funktionsaufrufe ✅ Unterstützt
Streaming ✅ Unterstützt
Denkinhalte (reasoning_content) ✅ Verfügbar in Think-High/Max-Modi

Verfügbare Modellvarianten

Modell Typ Verfügbar auf
DeepSeek-V4-Pro Instruct (chat-optimiert) HuggingFace, ModelScope, API
DeepSeek-V4-Pro-Base Vortrainierte Basis HuggingFace, ModelScope
DeepSeek-V4-Flash Instruct (chat-optimiert) HuggingFace, ModelScope, API
DeepSeek-V4-Flash-Base Vortrainierte Basis HuggingFace, ModelScope

Agentische Integration

DeepSeek V4 integriert sich nativ mit:

  • Claude Code — führender KI-Programmierassistent
  • OpenClaw — Open-Source-Multi-Agenten-Framework
  • OpenCode — Open-Source-autonomes Programmiersystem

Es treibt bereits DeepSeeks eigene interne agentische Programmierinfrastruktur an.


Zugriffsmethoden

  1. Web: chat.deepseek.com (Instant-Modus = Flash; Experten-Modus = Pro)
  2. API: api.deepseek.com/v1 — Modell auf deepseek-v4-pro oder deepseek-v4-flash aktualisieren
  3. HuggingFace: Gewichte für lokale Bereitstellung herunterladen
  4. ModelScope: Alternative für schnelleren Zugriff in China
  5. Drittanbieter-Inferenzanbieter: Mehrere Anbieter einschließlich Novita bieten V4-API-Zugang an

Migration von Vorgängermodellen

Alter Modellname Wird weitergeleitet an Eingestellt am
deepseek-chat deepseek-v4-flash (ohne Denken) 24. Juli 2026
deepseek-reasoner deepseek-v4-flash (mit Denken) 24. Juli 2026

Empfohlene Konfiguration nach Aufgabentyp

Aufgabe Empfohlene Konfiguration Begründung
Chat und Q&A V4-Flash Non-think Schnell und kostengünstig
Code-Vervollständigung V4-Flash Non-think Geschwindigkeit entscheidend
Komplexes Algorithmusdesign V4-Pro Think High Ausgewogenes Verhältnis Genauigkeit/Geschwindigkeit
Wettbewerbsprogrammierung V4-Pro Think Max Maximale Leistung
Dokumentenzusammenfassung V4-Flash Non-think Großvolumige Arbeitslast
Tiefgehende Dokumentenanalyse V4-Pro Think High Genauigkeit bei großem Kontext
Autonome Agenten V4-Pro Think Max Komplexe mehrstufige Aufgaben

KI-native Plattformen wie Framia.pro implementieren intelligentes Routing über diese Konfigurationen hinweg — sie passen die Aufgabenkomplexität an die richtige V4-Variante und den richtigen Modus an, um sowohl Qualität als auch Kosten für kreative Workflows zu optimieren.


Fazit

DeepSeek V4 ist die leistungsfähigste verfügbare Open-Weight-Modellserie Stand April 2026. Mit 1,6 Billionen Parametern (V4-Pro), MIT-Lizenzierung, einem Standard-Kontextfenster von 1 Million Token, drei Denkmodi, frontier-klassiger Programmierfähigkeit und Preisen, die 10–35-mal unter geschlossenen Alternativen liegen, stellt es eine echte Zäsur im Bereich zugänglicher KI-Fähigkeiten dar.