Mode Berpikir DeepSeek V4: Cara Kerja Non-Think, Think High, dan Think Max
Salah satu fitur paling khas dari DeepSeek V4 adalah sistem penalaran tiga tingkat yang dimilikinya. Alih-alih sekadar menawarkan pilihan biner antara "penalaran" atau "tanpa penalaran", V4 memungkinkan Anda mengatur seberapa besar upaya kognitif yang ingin diterapkan model — mulai dari respons instan hingga penalaran chain-of-thought yang mendalam dan ekstensif.
Tiga Mode Sekilas
| Mode | Deskripsi | Kecepatan | Akurasi | Ideal Untuk |
|---|---|---|---|---|
| Non-Think | Respons langsung, tanpa chain-of-thought | Tercepat | Dasar | Tugas sehari-hari, tanya jawab sederhana |
| Think High | Penalaran chain-of-thought terkontrol | Sedang | Tinggi | Masalah kompleks, perencanaan |
| Think Max | Penalaran mendalam dan menyeluruh | Terlambat | Maksimum | Matematika kompetisi, coding tingkat lanjut |
Ketiga mode tersedia di V4-Pro maupun V4-Flash.
Mode 1: Non-Think
Non-Think adalah mode tercepat. Model menghasilkan respons secara intuitif tanpa chain-of-thought yang eksplisit. Ini setara dengan cara kerja LLM generasi sebelumnya — dan tetap sangat mumpuni berkat skala V4.
Format respons: Output diawali dengan tag </think> kosong (menunjukkan tidak ada trace penalaran), diikuti langsung oleh ringkasan/jawaban.
Ideal untuk:
- Antarmuka percakapan real-time
- Tugas klasifikasi atau ekstraksi sederhana
- Autocomplete dan saran dengan latensi rendah
- Pemrosesan batch bervolume tinggi di mana biaya dan kecepatan menjadi prioritas utama
Konfigurasi API:
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "What's the capital of France?"}],
extra_body={"thinking": {"type": "disabled"}}
)
Dampak benchmark (V4-Pro Non-Think vs Think Max):
| Benchmark | Non-Think | Think Max |
|---|---|---|
| GPQA Diamond | 72,9% | 90,1% |
| LiveCodeBench | 56,8% | 93,5% |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31,7% | 95,2% |
Lompatan dari Non-Think ke Think Max sangat dramatis untuk tugas penalaran berat — hingga 60 poin persentase pada coding kompetitif.
Mode 2: Think High
Think High mengaktifkan proses penalaran chain-of-thought yang terkontrol. Model secara eksplisit "memikirkan" masalah sebelum menjawab — namun dengan anggaran berpikir yang dibatasi untuk mencegah biaya inferensi yang tidak terkendali.
Format respons: Output menyertakan blok <think> yang berisi trace penalaran, diikuti oleh </think> dan ringkasan akhir.
Ideal untuk:
- Pemecahan masalah kompleks di mana akurasi penting, namun kecepatan tetap relevan
- Tugas perencanaan dan penalaran multi-langkah
- Debugging dan analisis kode
- Sintesis riset dan tugas perbandingan
Konfigurasi API:
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)
# Mengakses trace penalaran
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
Parameter budget_tokens memungkinkan Anda mengontrol berapa banyak anggaran token yang dialokasikan untuk trace penalaran.
Mode 3: Think Max
Think Max mendorong V4 ke batas penalaran absolutnya. Mode ini menggunakan system prompt khusus yang menginstruksikan model untuk berpikir sedalam dan setuntas mungkin sebelum merespons.
Format respons: System prompt khusus + trace penalaran <think> yang diperpanjang + jawaban akhir </think>.
Persyaratan utama: DeepSeek merekomendasikan jendela konteks minimal 384K token untuk Think Max, karena trace penalaran bisa sangat panjang untuk masalah yang sulit.
Ideal untuk:
- Matematika tingkat kompetisi (IMO, HMMT, Putnam)
- Tantangan rekayasa perangkat lunak tingkat lanjut
- Generasi dan analisis hipotesis ilmiah
- Setiap tugas di mana mendapatkan jawaban yang tepat lebih penting daripada kecepatan atau biaya
Konfigurasi API (ringkasan):
THINK_MAX_SYSTEM_PROMPT = "..." # Gunakan prompt persis dari api-docs.deepseek.com/guides/thinking_mode
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
max_tokens=32768,
extra_body={"thinking": {"type": "max"}}
)
Benchmark: Dampak Mode Penalaran
Tabel berikut membandingkan V4-Flash di ketiga mode — demonstrasi nyata bagaimana kedalaman penalaran memengaruhi performa:
| Benchmark | Flash Non-Think | Flash Think High | Flash Think Max |
|---|---|---|---|
| MMLU-Pro | 83,0% | 86,4% | 86,2% |
| GPQA Diamond | 71,2% | 87,4% | 88,1% |
| HLE | 8,1% | 29,4% | 34,8% |
| LiveCodeBench | 55,2% | 88,4% | 91,6% |
| Codeforces Rating | N/A | 2816 | 3052 |
| HMMT 2026 Feb | 40,8% | 91,9% | 94,8% |
Bahkan V4-Flash dalam mode Think Max mencapai Codeforces 3052 — kompetitif dengan Gemini-3.1-Pro dan hanya 154 poin di bawah V4-Pro-Max. Ini membuktikan bahwa arsitektur berpikir sangat fundamental bagi lonjakan kemampuan model.
Kapan Setiap Mode Masuk Akal Secara Ekonomis?
Karena Think Max menghasilkan trace penalaran yang lebih panjang, ia mengonsumsi lebih banyak token output:
| Mode | Perkiraan Token per Respons | Biaya per Kueri (V4-Flash) |
|---|---|---|
| Non-Think | ~200-500 | ~$0,0001 |
| Think High | ~2.000-8.000 | ~$0,0010 |
| Think Max | ~8.000-50.000 | ~$0,005-$0,014 |
Bahkan dalam mode Think Max, V4-Flash sangat terjangkau. Masalah penalaran yang menantang mungkin hanya menelan biaya $0,01-$0,05 per kueri — sebagian kecil dari apa yang dikenakan model closed-source untuk respons dasar sekalipun.
Percakapan Multi-Turn dan Pergantian Mode
Anda dapat mengganti mode penalaran antar giliran dalam percakapan multi-turn. Misalnya:
- Gunakan Non-Think untuk pertukaran santai dan giliran pembangunan konteks
- Beralih ke Think High saat pertanyaan kompleks muncul
- Eskalasi ke Think Max untuk tugas yang paling menuntut
Platform seperti Framia.pro yang mengorkestrasikan alur kerja kreatif AI multi-langkah dapat memanfaatkan tingkatan ini — menggunakan respons Non-Think yang cepat untuk langkah-langkah rutin dan eskalasi ke Think Max saat tugas membutuhkan kemampuan terdalam dari model.
Kesimpulan
Tiga mode penalaran DeepSeek V4 memberi pengembang dan pengguna kendali yang belum pernah ada sebelumnya atas trade-off antara performa, biaya, dan latensi. Non-Think menghadirkan respons instan; Think High menyeimbangkan kecepatan dan akurasi; Think Max mendorong model ke batas absolutnya. Hasilnya adalah satu model yang dapat melayani segalanya — mulai dari autocomplete sepele hingga penalaran matematika tingkat kompetisi — semuanya dalam satu API yang sama.