DeepSeek V4 : Modes de Raisonnement — Comment Fonctionnent Non-Think, Think High et Think Max
L'une des caractéristiques les plus distinctives de DeepSeek V4 est son système de raisonnement à trois niveaux. Plutôt que de proposer simplement « raisonnement » ou « sans raisonnement » comme choix binaire, V4 vous permet de régler précisément l'effort cognitif que vous souhaitez que le modèle applique — des réponses instantanées au raisonnement en chaîne de pensée (chain-of-thought) profond et étendu.
Les trois modes en un coup d'œil
| Mode | Description | Vitesse | Précision | Idéal pour |
|---|---|---|---|---|
| Non-Think | Réponse directe, sans chaîne de pensée | Le plus rapide | De base | Tâches quotidiennes, Q&R simples |
| Think High | Raisonnement en chaîne de pensée contrôlé | Modéré | Élevée | Problèmes complexes, planification |
| Think Max | Raisonnement étendu et exhaustif | Le plus lent | Maximum | Mathématiques de compétition, codage avancé |
Les trois modes sont disponibles dans V4-Pro et V4-Flash.
Mode 1 : Non-Think
Non-Think est le mode le plus rapide. Le modèle génère des réponses de manière intuitive, sans chaîne de pensée explicite. Cela correspond au fonctionnement des LLM précédents — et reste remarquablement performant grâce à l'échelle de V4.
Format de réponse : La sortie commence par une balise </think> vide (indiquant l'absence de trace de raisonnement), suivie directement du résumé ou de la réponse.
Idéal pour :
- Interfaces conversationnelles en temps réel
- Tâches simples de classification ou d'extraction
- Autocomplétion et suggestions à faible latence
- Traitement par lot à grand volume où le coût et la vitesse priment
Configuration API :
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "What's the capital of France?"}],
extra_body={"thinking": {"type": "disabled"}}
)
Impact sur les benchmarks (V4-Pro Non-Think vs Think Max) :
| Benchmark | Non-Think | Think Max |
|---|---|---|
| GPQA Diamond | 72,9 % | 90,1 % |
| LiveCodeBench | 56,8 % | 93,5 % |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Fév | 31,7 % | 95,2 % |
Le saut de Non-Think à Think Max est spectaculaire pour les tâches de raisonnement difficiles — jusqu'à 60 points de pourcentage en codage compétitif.
Mode 2 : Think High
Think High active un processus de raisonnement en chaîne de pensée contrôlé. Le modèle « réfléchit » explicitement au problème avant de répondre — mais avec un budget de réflexion limité qui empêche des coûts d'inférence excessifs.
Format de réponse : La sortie inclut un bloc <think> contenant la trace de raisonnement, suivi de </think> et du résumé final.
Idéal pour :
- Résolution de problèmes complexes où la précision compte, mais la vitesse reste importante
- Tâches de planification et raisonnement multi-étapes
- Débogage et analyse de code
- Synthèse de recherche et tâches de comparaison
Configuration API :
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)
# Accéder à la trace de raisonnement
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
Le paramètre budget_tokens vous permet de contrôler le budget de tokens alloué à la trace de raisonnement.
Mode 3 : Think Max
Think Max pousse V4 à ses limites absolues de raisonnement. Ce mode utilise un prompt système spécial qui demande au modèle de raisonner aussi profondément et minutieusement que possible avant de répondre.
Format de réponse : Prompt système spécial + trace de raisonnement <think> étendue + réponse finale </think>.
Exigence clé : DeepSeek recommande une fenêtre de contexte minimale de 384K tokens pour Think Max, car la trace de raisonnement peut être extrêmement longue pour des problèmes difficiles.
Idéal pour :
- Mathématiques de compétition (IMO, HMMT, Putnam)
- Défis avancés d'ingénierie logicielle
- Génération et analyse d'hypothèses scientifiques
- Toute tâche où obtenir la bonne réponse importe plus que la vitesse ou le coût
Configuration API (aperçu) :
THINK_MAX_SYSTEM_PROMPT = "..." # Utiliser le prompt exact depuis api-docs.deepseek.com/guides/thinking_mode
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
max_tokens=32768, # Grande marge de sortie pour un raisonnement étendu
extra_body={"thinking": {"type": "max"}}
)
Benchmark : L'impact du mode de raisonnement
Le tableau ci-dessous compare V4-Flash dans les trois modes — une démonstration frappante de l'influence de la profondeur du raisonnement sur les performances :
| Benchmark | Flash Non-Think | Flash Think High | Flash Think Max |
|---|---|---|---|
| MMLU-Pro | 83,0 % | 86,4 % | 86,2 % |
| GPQA Diamond | 71,2 % | 87,4 % | 88,1 % |
| HLE | 8,1 % | 29,4 % | 34,8 % |
| LiveCodeBench | 55,2 % | 88,4 % | 91,6 % |
| Codeforces Rating | N/A | 2816 | 3052 |
| HMMT 2026 Fév | 40,8 % | 91,9 % | 94,8 % |
Même V4-Flash en mode Think Max atteint Codeforces 3052 — compétitif avec Gemini-3.1-Pro et seulement 154 points en dessous de V4-Pro-Max. Cela démontre que l'architecture de raisonnement est fondamentale pour le bond en performance du modèle.
Quand chaque mode est-il économiquement justifié ?
Comme Think Max génère des traces de raisonnement plus longues, il consomme davantage de tokens en sortie :
| Mode | Tokens approx. par réponse | Coût par requête (V4-Flash) |
|---|---|---|
| Non-Think | ~200–500 | ~0,0001 $ |
| Think High | ~2 000–8 000 | ~0,0010 $ |
| Think Max | ~8 000–50 000 | ~0,005–0,014 $ |
Même en mode Think Max, V4-Flash reste exceptionnellement abordable. Un problème de raisonnement complexe pourrait coûter 0,01–0,05 $ par requête — une fraction de ce que facturent les modèles propriétaires pour des réponses basiques.
Conversations multi-tours et changement de mode
Vous pouvez changer de mode de raisonnement entre les tours d'une conversation multi-tours. Par exemple :
- Utilisez Non-Think pour les échanges informels et les tours de construction de contexte
- Passez à Think High lorsqu'une question complexe se présente
- Escaladez vers Think Max pour les tâches les plus exigeantes
Des plateformes comme Framia.pro, qui orchestrent des workflows créatifs IA multi-étapes, peuvent tirer parti de cette hiérarchisation — en utilisant des réponses rapides Non-Think pour les étapes routinières et en escaladant vers Think Max lorsqu'une tâche nécessite les capacités les plus profondes du modèle.
Conclusion
Les trois modes de raisonnement de DeepSeek V4 offrent aux développeurs et aux utilisateurs un niveau de contrôle sans précédent sur le compromis performance-coût-latence. Non-Think fournit des réponses instantanées ; Think High équilibre vitesse et précision ; Think Max pousse le modèle à ses limites absolues. Le résultat est un seul modèle capable de tout prendre en charge, de la simple autocomplétion au raisonnement mathématique de niveau compétition — le tout au sein de la même API.