DeepSeek V4 Denkmodi: So funktionieren Non-Think, Think High und Think Max
Eines der markantesten Merkmale von DeepSeek V4 ist sein dreistufiges Reasoning-System. Statt schlicht zwischen „Reasoning" und „kein Reasoning" zu wählen, erlaubt V4 eine präzise Steuerung des kognitiven Aufwands — von sofortigen Antworten bis hin zu tiefem, erweitertem Chain-of-Thought-Reasoning.
Die drei Modi im Überblick
| Modus | Beschreibung | Geschwindigkeit | Genauigkeit | Ideal für |
|---|---|---|---|---|
| Non-Think | Direkte Antwort ohne Chain-of-Thought | Am schnellsten | Basis | Alltagsaufgaben, einfache Fragen |
| Think High | Kontrolliertes Chain-of-Thought-Reasoning | Mittel | Hoch | Komplexe Probleme, Planung |
| Think Max | Erweitertes, erschöpfendes Reasoning | Am langsamsten | Maximal | Wettbewerbsmathematik, anspruchsvolles Coding |
Alle drei Modi sind sowohl in V4-Pro als auch in V4-Flash verfügbar.
Modus 1: Non-Think
Non-Think ist der schnellste Modus. Das Modell generiert Antworten intuitiv, ohne einen expliziten Chain-of-Thought. Dies entspricht der Funktionsweise früherer LLMs — und ist angesichts des V4-Umfangs dennoch bemerkenswert leistungsfähig.
Antwortformat: Die Ausgabe beginnt mit einem leeren </think>-Tag (was auf keinen Reasoning-Trace hinweist), gefolgt direkt von der Zusammenfassung oder Antwort.
Ideal für:
- Echtzeit-Konversationsschnittstellen
- Einfache Klassifizierungs- oder Extraktionsaufgaben
- Autocomplete mit niedriger Latenz und Vorschläge
- Hochvolumige Stapelverarbeitung, bei der Kosten und Geschwindigkeit zählen
API-Konfiguration:
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "What's the capital of France?"}],
extra_body={"thinking": {"type": "disabled"}}
)
Benchmark-Vergleich (V4-Pro Non-Think vs. Think Max):
| Benchmark | Non-Think | Think Max |
|---|---|---|
| GPQA Diamond | 72,9 % | 90,1 % |
| LiveCodeBench | 56,8 % | 93,5 % |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31,7 % | 95,2 % |
Der Sprung von Non-Think zu Think Max ist bei schweren Reasoning-Aufgaben dramatisch — bis zu 60 Prozentpunkte bei Competitive Coding.
Modus 2: Think High
Think High aktiviert einen kontrollierten Chain-of-Thought-Reasoning-Prozess. Das Modell „denkt" das Problem explizit durch, bevor es antwortet — allerdings mit einem begrenzten Thinking-Budget, das unkontrollierte Inferenzkosten verhindert.
Antwortformat: Die Ausgabe enthält einen <think>-Block mit dem Reasoning-Trace, gefolgt von </think> und der finalen Antwort.
Ideal für:
- Komplexe Problemlösungen, bei denen Genauigkeit wichtig, Geschwindigkeit aber noch relevant ist
- Planungsaufgaben und mehrstufiges Reasoning
- Code-Debugging und -Analyse
- Forschungssynthese und Vergleichsaufgaben
API-Konfiguration:
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)
# Zugriff auf den Reasoning-Trace
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
Der Parameter budget_tokens ermöglicht die Steuerung des Token-Budgets für den Reasoning-Trace.
Modus 3: Think Max
Think Max bringt V4 an seine absoluten Reasoning-Grenzen. Dieser Modus verwendet einen speziellen System-Prompt, der das Modell anweist, so tief und gründlich wie möglich zu denken, bevor es antwortet.
Antwortformat: Spezieller System-Prompt + erweiterter <think>-Reasoning-Trace + </think> Abschließende Antwort.
Wichtige Anforderung: DeepSeek empfiehlt ein Mindest-Kontextfenster von 384K Token für Think Max, da der Reasoning-Trace bei schweren Aufgaben sehr lang werden kann.
Ideal für:
- Wettbewerbsmathematik (IMO, HMMT, Putnam)
- Anspruchsvolle Software-Engineering-Aufgaben
- Generierung und Analyse wissenschaftlicher Hypothesen
- Alle Aufgaben, bei denen die richtige Antwort wichtiger ist als Geschwindigkeit oder Kosten
API-Konfiguration (Übersicht):
THINK_MAX_SYSTEM_PROMPT = "..." # Exakten Prompt von api-docs.deepseek.com/guides/thinking_mode verwenden
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
max_tokens=32768, # Großes Ausgabe-Kontingent für erweitertes Reasoning
extra_body={"thinking": {"type": "max"}}
)
Benchmark: Die Auswirkungen des Reasoning-Modus
Die folgende Tabelle vergleicht V4-Flash in allen drei Modi — eine eindrucksvolle Demonstration, wie die Tiefe des Reasonings die Leistung beeinflusst:
| Benchmark | Flash Non-Think | Flash Think High | Flash Think Max |
|---|---|---|---|
| MMLU-Pro | 83,0 % | 86,4 % | 86,2 % |
| GPQA Diamond | 71,2 % | 87,4 % | 88,1 % |
| HLE | 8,1 % | 29,4 % | 34,8 % |
| LiveCodeBench | 55,2 % | 88,4 % | 91,6 % |
| Codeforces Rating | N/A | 2816 | 3052 |
| HMMT 2026 Feb | 40,8 % | 91,9 % | 94,8 % |
Selbst V4-Flash im Think-Max-Modus erreicht Codeforces 3052 — vergleichbar mit Gemini-3.1-Pro und nur 154 Punkte unter V4-Pro-Max. Dies zeigt, dass die Thinking-Architektur grundlegend für den Leistungssprung des Modells ist.
Wann ist welcher Modus wirtschaftlich sinnvoll?
Da Think Max längere Reasoning-Traces generiert, verbraucht es mehr Output-Token:
| Modus | Ca. Token pro Antwort | Kosten pro Anfrage (V4-Flash) |
|---|---|---|
| Non-Think | ~200–500 | ~$0,0001 |
| Think High | ~2.000–8.000 | ~$0,0010 |
| Think Max | ~8.000–50.000 | ~$0,005–$0,014 |
Selbst im Think-Max-Modus ist V4-Flash außergewöhnlich erschwinglich. Ein anspruchsvolles Reasoning-Problem könnte $0,01–$0,05 pro Anfrage kosten — ein Bruchteil dessen, was Closed-Source-Modelle für einfache Antworten berechnen.
Multi-Turn-Gespräche und Moduswechsel
Sie können die Reasoning-Modi zwischen den Gesprächsrunden wechseln. Zum Beispiel:
- Non-Think für lockere Konversation und Kontextaufbau
- Wechsel zu Think High, wenn eine komplexe Frage auftaucht
- Eskalation zu Think Max für die anspruchsvollsten Aufgaben
Plattformen wie Framia.pro, die mehrstufige KI-Workflows orchestrieren, können diese Abstufung nutzen — schnelle Non-Think-Antworten für Routineschritte und Think Max, wenn die tiefsten Fähigkeiten des Modells gefragt sind.
Fazit
DeepSeek V4s drei Reasoning-Modi geben Entwicklern und Nutzern eine beispiellose Kontrolle über das Gleichgewicht zwischen Leistung, Kosten und Latenz. Non-Think liefert sofortige Antworten; Think High balanciert Geschwindigkeit und Genauigkeit; Think Max bringt das Modell an seine absoluten Grenzen. Das Ergebnis ist ein einziges Modell, das alles bedienen kann — von trivialem Autocomplete bis hin zu mathematischem Reasoning auf Wettbewerbsniveau — alles innerhalb derselben API.