DeepSeek V4: Panduan Lengkap Mode Non-Think, Think High, dan Think Max

DeepSeek V4 memiliki tiga mode penalaran: Non-Think, Think High, dan Think Max. Pelajari cara kerja, kapan menggunakannya, dan dampaknya pada performa dan biaya.

Mode Berpikir DeepSeek V4: Cara Kerja Non-Think, Think High, dan Think Max

Salah satu fitur paling khas dari DeepSeek V4 adalah sistem penalaran tiga tingkat yang dimilikinya. Alih-alih sekadar menawarkan pilihan biner antara "penalaran" atau "tanpa penalaran", V4 memungkinkan Anda mengatur seberapa besar upaya kognitif yang ingin diterapkan model — mulai dari respons instan hingga penalaran chain-of-thought yang mendalam dan ekstensif.

Tiga Mode Sekilas

Mode	Deskripsi	Kecepatan	Akurasi	Ideal Untuk
Non-Think	Respons langsung, tanpa chain-of-thought	Tercepat	Dasar	Tugas sehari-hari, tanya jawab sederhana
Think High	Penalaran chain-of-thought terkontrol	Sedang	Tinggi	Masalah kompleks, perencanaan
Think Max	Penalaran mendalam dan menyeluruh	Terlambat	Maksimum	Matematika kompetisi, coding tingkat lanjut

Ketiga mode tersedia di V4-Pro maupun V4-Flash.

Mode 1: Non-Think

Non-Think adalah mode tercepat. Model menghasilkan respons secara intuitif tanpa chain-of-thought yang eksplisit. Ini setara dengan cara kerja LLM generasi sebelumnya — dan tetap sangat mumpuni berkat skala V4.

Format respons: Output diawali dengan tag </think> kosong (menunjukkan tidak ada trace penalaran), diikuti langsung oleh ringkasan/jawaban.

Ideal untuk:

Antarmuka percakapan real-time
Tugas klasifikasi atau ekstraksi sederhana
Autocomplete dan saran dengan latensi rendah
Pemrosesan batch bervolume tinggi di mana biaya dan kecepatan menjadi prioritas utama

Konfigurasi API:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "What's the capital of France?"}],
    extra_body={"thinking": {"type": "disabled"}}
)

Dampak benchmark (V4-Pro Non-Think vs Think Max):

Benchmark	Non-Think	Think Max
GPQA Diamond	72,9%	90,1%
LiveCodeBench	56,8%	93,5%
Codeforces Rating	N/A	3206
HMMT 2026 Feb	31,7%	95,2%

Lompatan dari Non-Think ke Think Max sangat dramatis untuk tugas penalaran berat — hingga 60 poin persentase pada coding kompetitif.

Mode 2: Think High

Think High mengaktifkan proses penalaran chain-of-thought yang terkontrol. Model secara eksplisit "memikirkan" masalah sebelum menjawab — namun dengan anggaran berpikir yang dibatasi untuk mencegah biaya inferensi yang tidak terkendali.

Format respons: Output menyertakan blok <think> yang berisi trace penalaran, diikuti oleh </think> dan ringkasan akhir.

Ideal untuk:

Pemecahan masalah kompleks di mana akurasi penting, namun kecepatan tetap relevan
Tugas perencanaan dan penalaran multi-langkah
Debugging dan analisis kode
Sintesis riset dan tugas perbandingan

Konfigurasi API:

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
    extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)

# Mengakses trace penalaran
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content

Parameter budget_tokens memungkinkan Anda mengontrol berapa banyak anggaran token yang dialokasikan untuk trace penalaran.

Mode 3: Think Max

Think Max mendorong V4 ke batas penalaran absolutnya. Mode ini menggunakan system prompt khusus yang menginstruksikan model untuk berpikir sedalam dan setuntas mungkin sebelum merespons.

Format respons: System prompt khusus + trace penalaran <think> yang diperpanjang + jawaban akhir </think>.

Persyaratan utama: DeepSeek merekomendasikan jendela konteks minimal 384K token untuk Think Max, karena trace penalaran bisa sangat panjang untuk masalah yang sulit.

Ideal untuk:

Matematika tingkat kompetisi (IMO, HMMT, Putnam)
Tantangan rekayasa perangkat lunak tingkat lanjut
Generasi dan analisis hipotesis ilmiah
Setiap tugas di mana mendapatkan jawaban yang tepat lebih penting daripada kecepatan atau biaya

Konfigurasi API (ringkasan):

THINK_MAX_SYSTEM_PROMPT = "..." # Gunakan prompt persis dari api-docs.deepseek.com/guides/thinking_mode

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
        {"role": "user", "content": "Prove that there are infinitely many primes."}
    ],
    max_tokens=32768,
    extra_body={"thinking": {"type": "max"}}
)

Benchmark: Dampak Mode Penalaran

Tabel berikut membandingkan V4-Flash di ketiga mode — demonstrasi nyata bagaimana kedalaman penalaran memengaruhi performa:

Benchmark	Flash Non-Think	Flash Think High	Flash Think Max
MMLU-Pro	83,0%	86,4%	86,2%
GPQA Diamond	71,2%	87,4%	88,1%
HLE	8,1%	29,4%	34,8%
LiveCodeBench	55,2%	88,4%	91,6%
Codeforces Rating	N/A	2816	3052
HMMT 2026 Feb	40,8%	91,9%	94,8%

Bahkan V4-Flash dalam mode Think Max mencapai Codeforces 3052 — kompetitif dengan Gemini-3.1-Pro dan hanya 154 poin di bawah V4-Pro-Max. Ini membuktikan bahwa arsitektur berpikir sangat fundamental bagi lonjakan kemampuan model.

Kapan Setiap Mode Masuk Akal Secara Ekonomis?

Karena Think Max menghasilkan trace penalaran yang lebih panjang, ia mengonsumsi lebih banyak token output:

Mode	Perkiraan Token per Respons	Biaya per Kueri (V4-Flash)
Non-Think	~200-500	~$0,0001
Think High	~2.000-8.000	~$0,0010
Think Max	~8.000-50.000	~$0,005-$0,014

Bahkan dalam mode Think Max, V4-Flash sangat terjangkau. Masalah penalaran yang menantang mungkin hanya menelan biaya $0,01-$0,05 per kueri — sebagian kecil dari apa yang dikenakan model closed-source untuk respons dasar sekalipun.

Percakapan Multi-Turn dan Pergantian Mode

Anda dapat mengganti mode penalaran antar giliran dalam percakapan multi-turn. Misalnya:

Gunakan Non-Think untuk pertukaran santai dan giliran pembangunan konteks
Beralih ke Think High saat pertanyaan kompleks muncul
Eskalasi ke Think Max untuk tugas yang paling menuntut

Platform seperti Framia.pro yang mengorkestrasikan alur kerja kreatif AI multi-langkah dapat memanfaatkan tingkatan ini — menggunakan respons Non-Think yang cepat untuk langkah-langkah rutin dan eskalasi ke Think Max saat tugas membutuhkan kemampuan terdalam dari model.

Kesimpulan

Tiga mode penalaran DeepSeek V4 memberi pengembang dan pengguna kendali yang belum pernah ada sebelumnya atas trade-off antara performa, biaya, dan latensi. Non-Think menghadirkan respons instan; Think High menyeimbangkan kecepatan dan akurasi; Think Max mendorong model ke batas absolutnya. Hasilnya adalah satu model yang dapat melayani segalanya — mulai dari autocomplete sepele hingga penalaran matematika tingkat kompetisi — semuanya dalam satu API yang sama.