Mode Berpikir DeepSeek V4: Cara Kerja Non-Think, Think High, dan Think Max

DeepSeek V4 memiliki tiga mode penalaran: Non-Think, Think High, dan Think Max. Pelajari cara kerja, kapan menggunakannya, dan dampaknya pada performa dan biaya.

by Framia

Mode Berpikir DeepSeek V4: Cara Kerja Non-Think, Think High, dan Think Max

Salah satu fitur paling khas dari DeepSeek V4 adalah sistem penalaran tiga tingkat yang dimilikinya. Alih-alih sekadar menawarkan pilihan biner antara "penalaran" atau "tanpa penalaran", V4 memungkinkan Anda mengatur seberapa besar upaya kognitif yang ingin diterapkan model — mulai dari respons instan hingga penalaran chain-of-thought yang mendalam dan ekstensif.


Tiga Mode Sekilas

Mode Deskripsi Kecepatan Akurasi Ideal Untuk
Non-Think Respons langsung, tanpa chain-of-thought Tercepat Dasar Tugas sehari-hari, tanya jawab sederhana
Think High Penalaran chain-of-thought terkontrol Sedang Tinggi Masalah kompleks, perencanaan
Think Max Penalaran mendalam dan menyeluruh Terlambat Maksimum Matematika kompetisi, coding tingkat lanjut

Ketiga mode tersedia di V4-Pro maupun V4-Flash.


Mode 1: Non-Think

Non-Think adalah mode tercepat. Model menghasilkan respons secara intuitif tanpa chain-of-thought yang eksplisit. Ini setara dengan cara kerja LLM generasi sebelumnya — dan tetap sangat mumpuni berkat skala V4.

Format respons: Output diawali dengan tag </think> kosong (menunjukkan tidak ada trace penalaran), diikuti langsung oleh ringkasan/jawaban.

Ideal untuk:

  • Antarmuka percakapan real-time
  • Tugas klasifikasi atau ekstraksi sederhana
  • Autocomplete dan saran dengan latensi rendah
  • Pemrosesan batch bervolume tinggi di mana biaya dan kecepatan menjadi prioritas utama

Konfigurasi API:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "What's the capital of France?"}],
    extra_body={"thinking": {"type": "disabled"}}
)

Dampak benchmark (V4-Pro Non-Think vs Think Max):

Benchmark Non-Think Think Max
GPQA Diamond 72,9% 90,1%
LiveCodeBench 56,8% 93,5%
Codeforces Rating N/A 3206
HMMT 2026 Feb 31,7% 95,2%

Lompatan dari Non-Think ke Think Max sangat dramatis untuk tugas penalaran berat — hingga 60 poin persentase pada coding kompetitif.


Mode 2: Think High

Think High mengaktifkan proses penalaran chain-of-thought yang terkontrol. Model secara eksplisit "memikirkan" masalah sebelum menjawab — namun dengan anggaran berpikir yang dibatasi untuk mencegah biaya inferensi yang tidak terkendali.

Format respons: Output menyertakan blok <think> yang berisi trace penalaran, diikuti oleh </think> dan ringkasan akhir.

Ideal untuk:

  • Pemecahan masalah kompleks di mana akurasi penting, namun kecepatan tetap relevan
  • Tugas perencanaan dan penalaran multi-langkah
  • Debugging dan analisis kode
  • Sintesis riset dan tugas perbandingan

Konfigurasi API:

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
    extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)

# Mengakses trace penalaran
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content

Parameter budget_tokens memungkinkan Anda mengontrol berapa banyak anggaran token yang dialokasikan untuk trace penalaran.


Mode 3: Think Max

Think Max mendorong V4 ke batas penalaran absolutnya. Mode ini menggunakan system prompt khusus yang menginstruksikan model untuk berpikir sedalam dan setuntas mungkin sebelum merespons.

Format respons: System prompt khusus + trace penalaran <think> yang diperpanjang + jawaban akhir </think>.

Persyaratan utama: DeepSeek merekomendasikan jendela konteks minimal 384K token untuk Think Max, karena trace penalaran bisa sangat panjang untuk masalah yang sulit.

Ideal untuk:

  • Matematika tingkat kompetisi (IMO, HMMT, Putnam)
  • Tantangan rekayasa perangkat lunak tingkat lanjut
  • Generasi dan analisis hipotesis ilmiah
  • Setiap tugas di mana mendapatkan jawaban yang tepat lebih penting daripada kecepatan atau biaya

Konfigurasi API (ringkasan):

THINK_MAX_SYSTEM_PROMPT = "..." # Gunakan prompt persis dari api-docs.deepseek.com/guides/thinking_mode

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
        {"role": "user", "content": "Prove that there are infinitely many primes."}
    ],
    max_tokens=32768,
    extra_body={"thinking": {"type": "max"}}
)

Benchmark: Dampak Mode Penalaran

Tabel berikut membandingkan V4-Flash di ketiga mode — demonstrasi nyata bagaimana kedalaman penalaran memengaruhi performa:

Benchmark Flash Non-Think Flash Think High Flash Think Max
MMLU-Pro 83,0% 86,4% 86,2%
GPQA Diamond 71,2% 87,4% 88,1%
HLE 8,1% 29,4% 34,8%
LiveCodeBench 55,2% 88,4% 91,6%
Codeforces Rating N/A 2816 3052
HMMT 2026 Feb 40,8% 91,9% 94,8%

Bahkan V4-Flash dalam mode Think Max mencapai Codeforces 3052 — kompetitif dengan Gemini-3.1-Pro dan hanya 154 poin di bawah V4-Pro-Max. Ini membuktikan bahwa arsitektur berpikir sangat fundamental bagi lonjakan kemampuan model.


Kapan Setiap Mode Masuk Akal Secara Ekonomis?

Karena Think Max menghasilkan trace penalaran yang lebih panjang, ia mengonsumsi lebih banyak token output:

Mode Perkiraan Token per Respons Biaya per Kueri (V4-Flash)
Non-Think ~200-500 ~$0,0001
Think High ~2.000-8.000 ~$0,0010
Think Max ~8.000-50.000 ~$0,005-$0,014

Bahkan dalam mode Think Max, V4-Flash sangat terjangkau. Masalah penalaran yang menantang mungkin hanya menelan biaya $0,01-$0,05 per kueri — sebagian kecil dari apa yang dikenakan model closed-source untuk respons dasar sekalipun.


Percakapan Multi-Turn dan Pergantian Mode

Anda dapat mengganti mode penalaran antar giliran dalam percakapan multi-turn. Misalnya:

  • Gunakan Non-Think untuk pertukaran santai dan giliran pembangunan konteks
  • Beralih ke Think High saat pertanyaan kompleks muncul
  • Eskalasi ke Think Max untuk tugas yang paling menuntut

Platform seperti Framia.pro yang mengorkestrasikan alur kerja kreatif AI multi-langkah dapat memanfaatkan tingkatan ini — menggunakan respons Non-Think yang cepat untuk langkah-langkah rutin dan eskalasi ke Think Max saat tugas membutuhkan kemampuan terdalam dari model.


Kesimpulan

Tiga mode penalaran DeepSeek V4 memberi pengembang dan pengguna kendali yang belum pernah ada sebelumnya atas trade-off antara performa, biaya, dan latensi. Non-Think menghadirkan respons instan; Think High menyeimbangkan kecepatan dan akurasi; Think Max mendorong model ke batas absolutnya. Hasilnya adalah satu model yang dapat melayani segalanya — mulai dari autocomplete sepele hingga penalaran matematika tingkat kompetisi — semuanya dalam satu API yang sama.