DeepSeek V4 Denkmodi: So funktionieren Non-Think, Think High und Think Max

DeepSeek V4 bietet drei Reasoning-Modi: Non-Think, Think High und Think Max. Erfahren Sie, wie jeder Modus funktioniert, wann er sinnvoll ist und welche Auswirkungen er auf Leistung und Kosten hat.

by Framia

DeepSeek V4 Denkmodi: So funktionieren Non-Think, Think High und Think Max

Eines der markantesten Merkmale von DeepSeek V4 ist sein dreistufiges Reasoning-System. Statt schlicht zwischen „Reasoning" und „kein Reasoning" zu wählen, erlaubt V4 eine präzise Steuerung des kognitiven Aufwands — von sofortigen Antworten bis hin zu tiefem, erweitertem Chain-of-Thought-Reasoning.


Die drei Modi im Überblick

Modus Beschreibung Geschwindigkeit Genauigkeit Ideal für
Non-Think Direkte Antwort ohne Chain-of-Thought Am schnellsten Basis Alltagsaufgaben, einfache Fragen
Think High Kontrolliertes Chain-of-Thought-Reasoning Mittel Hoch Komplexe Probleme, Planung
Think Max Erweitertes, erschöpfendes Reasoning Am langsamsten Maximal Wettbewerbsmathematik, anspruchsvolles Coding

Alle drei Modi sind sowohl in V4-Pro als auch in V4-Flash verfügbar.


Modus 1: Non-Think

Non-Think ist der schnellste Modus. Das Modell generiert Antworten intuitiv, ohne einen expliziten Chain-of-Thought. Dies entspricht der Funktionsweise früherer LLMs — und ist angesichts des V4-Umfangs dennoch bemerkenswert leistungsfähig.

Antwortformat: Die Ausgabe beginnt mit einem leeren </think>-Tag (was auf keinen Reasoning-Trace hinweist), gefolgt direkt von der Zusammenfassung oder Antwort.

Ideal für:

  • Echtzeit-Konversationsschnittstellen
  • Einfache Klassifizierungs- oder Extraktionsaufgaben
  • Autocomplete mit niedriger Latenz und Vorschläge
  • Hochvolumige Stapelverarbeitung, bei der Kosten und Geschwindigkeit zählen

API-Konfiguration:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "What's the capital of France?"}],
    extra_body={"thinking": {"type": "disabled"}}
)

Benchmark-Vergleich (V4-Pro Non-Think vs. Think Max):

Benchmark Non-Think Think Max
GPQA Diamond 72,9 % 90,1 %
LiveCodeBench 56,8 % 93,5 %
Codeforces Rating N/A 3206
HMMT 2026 Feb 31,7 % 95,2 %

Der Sprung von Non-Think zu Think Max ist bei schweren Reasoning-Aufgaben dramatisch — bis zu 60 Prozentpunkte bei Competitive Coding.


Modus 2: Think High

Think High aktiviert einen kontrollierten Chain-of-Thought-Reasoning-Prozess. Das Modell „denkt" das Problem explizit durch, bevor es antwortet — allerdings mit einem begrenzten Thinking-Budget, das unkontrollierte Inferenzkosten verhindert.

Antwortformat: Die Ausgabe enthält einen <think>-Block mit dem Reasoning-Trace, gefolgt von </think> und der finalen Antwort.

Ideal für:

  • Komplexe Problemlösungen, bei denen Genauigkeit wichtig, Geschwindigkeit aber noch relevant ist
  • Planungsaufgaben und mehrstufiges Reasoning
  • Code-Debugging und -Analyse
  • Forschungssynthese und Vergleichsaufgaben

API-Konfiguration:

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
    extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)

# Zugriff auf den Reasoning-Trace
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content

Der Parameter budget_tokens ermöglicht die Steuerung des Token-Budgets für den Reasoning-Trace.


Modus 3: Think Max

Think Max bringt V4 an seine absoluten Reasoning-Grenzen. Dieser Modus verwendet einen speziellen System-Prompt, der das Modell anweist, so tief und gründlich wie möglich zu denken, bevor es antwortet.

Antwortformat: Spezieller System-Prompt + erweiterter <think>-Reasoning-Trace + </think> Abschließende Antwort.

Wichtige Anforderung: DeepSeek empfiehlt ein Mindest-Kontextfenster von 384K Token für Think Max, da der Reasoning-Trace bei schweren Aufgaben sehr lang werden kann.

Ideal für:

  • Wettbewerbsmathematik (IMO, HMMT, Putnam)
  • Anspruchsvolle Software-Engineering-Aufgaben
  • Generierung und Analyse wissenschaftlicher Hypothesen
  • Alle Aufgaben, bei denen die richtige Antwort wichtiger ist als Geschwindigkeit oder Kosten

API-Konfiguration (Übersicht):

THINK_MAX_SYSTEM_PROMPT = "..." # Exakten Prompt von api-docs.deepseek.com/guides/thinking_mode verwenden

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
        {"role": "user", "content": "Prove that there are infinitely many primes."}
    ],
    max_tokens=32768,  # Großes Ausgabe-Kontingent für erweitertes Reasoning
    extra_body={"thinking": {"type": "max"}}
)

Benchmark: Die Auswirkungen des Reasoning-Modus

Die folgende Tabelle vergleicht V4-Flash in allen drei Modi — eine eindrucksvolle Demonstration, wie die Tiefe des Reasonings die Leistung beeinflusst:

Benchmark Flash Non-Think Flash Think High Flash Think Max
MMLU-Pro 83,0 % 86,4 % 86,2 %
GPQA Diamond 71,2 % 87,4 % 88,1 %
HLE 8,1 % 29,4 % 34,8 %
LiveCodeBench 55,2 % 88,4 % 91,6 %
Codeforces Rating N/A 2816 3052
HMMT 2026 Feb 40,8 % 91,9 % 94,8 %

Selbst V4-Flash im Think-Max-Modus erreicht Codeforces 3052 — vergleichbar mit Gemini-3.1-Pro und nur 154 Punkte unter V4-Pro-Max. Dies zeigt, dass die Thinking-Architektur grundlegend für den Leistungssprung des Modells ist.


Wann ist welcher Modus wirtschaftlich sinnvoll?

Da Think Max längere Reasoning-Traces generiert, verbraucht es mehr Output-Token:

Modus Ca. Token pro Antwort Kosten pro Anfrage (V4-Flash)
Non-Think ~200–500 ~$0,0001
Think High ~2.000–8.000 ~$0,0010
Think Max ~8.000–50.000 ~$0,005–$0,014

Selbst im Think-Max-Modus ist V4-Flash außergewöhnlich erschwinglich. Ein anspruchsvolles Reasoning-Problem könnte $0,01–$0,05 pro Anfrage kosten — ein Bruchteil dessen, was Closed-Source-Modelle für einfache Antworten berechnen.


Multi-Turn-Gespräche und Moduswechsel

Sie können die Reasoning-Modi zwischen den Gesprächsrunden wechseln. Zum Beispiel:

  • Non-Think für lockere Konversation und Kontextaufbau
  • Wechsel zu Think High, wenn eine komplexe Frage auftaucht
  • Eskalation zu Think Max für die anspruchsvollsten Aufgaben

Plattformen wie Framia.pro, die mehrstufige KI-Workflows orchestrieren, können diese Abstufung nutzen — schnelle Non-Think-Antworten für Routineschritte und Think Max, wenn die tiefsten Fähigkeiten des Modells gefragt sind.


Fazit

DeepSeek V4s drei Reasoning-Modi geben Entwicklern und Nutzern eine beispiellose Kontrolle über das Gleichgewicht zwischen Leistung, Kosten und Latenz. Non-Think liefert sofortige Antworten; Think High balanciert Geschwindigkeit und Genauigkeit; Think Max bringt das Modell an seine absoluten Grenzen. Das Ergebnis ist ein einziges Modell, das alles bedienen kann — von trivialem Autocomplete bis hin zu mathematischem Reasoning auf Wettbewerbsniveau — alles innerhalb derselben API.