DeepSeek V4の思考モード:Non-Think・Think High・Think Maxの仕組み
DeepSeek V4の最も際立った特徴のひとつが、3段階の推論システムです。「推論あり」か「推論なし」という二択ではなく、V4はモデルにかけたい認知的負荷を細かく調整できます。即座の応答から、深い拡張型のチェーン・オブ・ソート(連鎖思考)推論まで、自在に設定可能です。
3つのモードの概要
| モード | 説明 | 速度 | 精度 | 最適な用途 |
|---|---|---|---|---|
| Non-Think | チェーン・オブ・ソートなしの直接応答 | 最速 | 標準 | 日常タスク、シンプルなQ&A |
| Think High | 制御されたチェーン・オブ・ソート推論 | 中程度 | 高い | 複雑な問題解決、プランニング |
| Think Max | 拡張型・徹底的な推論 | 最遅 | 最大 | 競技数学、最先端コーディング |
3つのモードはすべて、V4-ProとV4-Flashの両方で利用できます。
モード1:Non-Think
Non-Thinkは最速のモードです。モデルは明示的なチェーン・オブ・ソートなしに、直感的に応答を生成します。これは以前のLLMの動作に相当しますが、V4のスケールを活かした驚くほど高い性能を持っています。
レスポンス形式: 出力は空の </think> タグ(推論トレースなしを示す)から始まり、その直後に要約・回答が続きます。
最適な用途:
- リアルタイムの会話インターフェース
- シンプルな分類・抽出タスク
- 低レイテンシのオートコンプリートや提案
- コストと速度が最優先の大量バッチ処理
API設定:
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "What's the capital of France?"}],
extra_body={"thinking": {"type": "disabled"}}
)
ベンチマーク比較(V4-Pro Non-Think vs Think Max):
| ベンチマーク | Non-Think | Think Max |
|---|---|---|
| GPQA Diamond | 72.9% | 90.1% |
| LiveCodeBench | 56.8% | 93.5% |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31.7% | 95.2% |
Non-ThinkからThink Maxへのジャンプは、難しい推論タスクで劇的に現れます。競技コーディングでは最大60パーセントポイントもの差が生じます。
モード2:Think High
Think Highは、制御されたチェーン・オブ・ソート推論プロセスを有効化します。モデルは回答前に問題を明示的に「考え抜き」ますが、推論コストが暴走しないよう思考バジェットが制限されています。
レスポンス形式: 推論トレースを含む <think> ブロックの後に </think> と最終的な要約が続きます。
最適な用途:
- 精度が重要だが速度も依然として求められる複雑な問題解決
- プランニングと多段階の推論タスク
- コードのデバッグと分析
- リサーチの統合と比較タスク
API設定:
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)
# 推論トレースへのアクセス
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
budget_tokens パラメータにより、推論トレースに割り当てるトークン予算を制御できます。
モード3:Think Max
Think MaxはV4を絶対的な推論の限界まで追い込むモードです。特別なシステムプロンプトを使用して、モデルが応答前に可能な限り深く徹底的に推論するよう指示します。
レスポンス形式: 特別なシステムプロンプト+拡張 <think> 推論トレース+ </think> 最終回答。
重要な要件: Think Maxでは推論トレースが非常に長くなる可能性があるため、DeepSeekは最低384Kトークンのコンテキストウィンドウを推奨しています。
最適な用途:
- 競技レベルの数学(IMO、HMMT、Putnam)
- 最先端のソフトウェアエンジニアリング課題
- 科学的仮説の生成と分析
- 速度やコストよりも正確な回答が最優先される全てのタスク
API設定(概要):
THINK_MAX_SYSTEM_PROMPT = "..." # api-docs.deepseek.com/guides/thinking_mode の正確なプロンプトを使用
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
max_tokens=32768, # 拡張推論のための大きな出力許容量
extra_body={"thinking": {"type": "max"}}
)
ベンチマーク:推論モードの影響
以下の表はV4-Flashの3つのモードを比較したものです。推論の深さがパフォーマンスにいかに影響するかを鮮明に示しています。
| ベンチマーク | Flash Non-Think | Flash Think High | Flash Think Max |
|---|---|---|---|
| MMLU-Pro | 83.0% | 86.4% | 86.2% |
| GPQA Diamond | 71.2% | 87.4% | 88.1% |
| HLE | 8.1% | 29.4% | 34.8% |
| LiveCodeBench | 55.2% | 88.4% | 91.6% |
| Codeforces Rating | N/A | 2816 | 3052 |
| HMMT 2026 Feb | 40.8% | 91.9% | 94.8% |
Think MaxモードのV4-FlashでもCodeforces 3052を達成しており、Gemini-3.1-Proと競争力があり、V4-Pro-Maxとは154ポイント差に過ぎません。これは思考アーキテクチャがモデルの能力向上において根本的であることを示しています。
各モードの経済的な使い分け
Think Maxはより長い推論トレースを生成するため、出力トークンの消費が増えます。
| モード | 概算トークン数/応答 | クエリあたりのコスト(V4-Flash) |
|---|---|---|
| Non-Think | 約200〜500 | 約$0.0001 |
| Think High | 約2,000〜8,000 | 約$0.0010 |
| Think Max | 約8,000〜50,000 | 約$0.005〜$0.014 |
Think MaxモードでもV4-Flashは非常にコスト効率が高く、困難な推論問題でもクエリあたり$0.01〜$0.05程度です。これはクローズドソースモデルが基本的な応答に請求する金額のほんの一部に過ぎません。
マルチターン会話とモードの切り替え
マルチターン会話の中で、ターンごとに推論モードを切り替えることができます。例えば:
- カジュアルなやり取りやコンテキスト構築のターンには Non-Think を使用
- 複雑な質問が生じたときには Think High に切り替え
- 最も難しいタスクには Think Max にエスカレート
多段階AIクリエイティブワークフローを統合するFramia.proのようなプラットフォームは、このモード階層を活用できます。ルーティンなステップには高速なNon-Think応答を使用し、タスクがモデルの最深の能力を必要とする場合はThink Maxにエスカレートします。
まとめ
DeepSeek V4の3つの推論モードは、開発者とユーザーにパフォーマンス・コスト・レイテンシのトレードオフを前例のないレベルで制御する力を与えます。Non-Thinkは即座の応答を実現し、Think Highは速度と精度のバランスをとり、Think MaxはモデルをAbsoluteの限界まで押し上げます。その結果、同じAPIの中で、些細なオートコンプリートから競技レベルの数学的推論まで、あらゆる用途に対応できる単一モデルが実現します。