Benchmark DeepSeek V4: Skor di LiveCodeBench, MMLU, SWE-bench, dan Lainnya
DeepSeek V4 hadir pada 24 April 2026 dengan klaim yang berani: model open source terbaik yang tersedia, rating Codeforces teratas, dan performa mendekati model frontier dalam tugas penalaran, pengetahuan, dan agentik. Berikut analisis lengkap setiap hasil benchmark utama — dipisahkan berdasarkan varian model dan mode penalaran.
Memahami Mode Benchmark DeepSeek V4
DeepSeek V4 melaporkan hasil dalam enam konfigurasi:
| Konfigurasi | Deskripsi |
|---|---|
| V4-Flash Non-Think | Cepat, tanpa rantai pemikiran |
| V4-Flash Think High | Penalaran diperluas tingkat sedang |
| V4-Flash Think Max | Upaya penalaran maksimum (Flash) |
| V4-Pro Non-Think | Cepat, tanpa rantai pemikiran (Pro) |
| V4-Pro Think High | Penalaran diperluas tingkat sedang (Pro) |
| V4-Pro Think Max | Penalaran maksimum — hasil keseluruhan terbaik |
Sebagian besar benchmark kompetitif melaporkan hasil V4-Pro-Max. Itulah angka yang dikutip setiap kali Anda melihat "DeepSeek V4" di berita utama.
Benchmark Coding
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91,6% | 93,5% | 88,8% | N/A | 91,7% |
| Rating Codeforces | 3052 | 3206 | N/A | 3168 | 3052 |
| HMMT 2026 Feb (Pass@1) | 94,8% | 95,2% | 96,2% | 97,7% | 94,7% |
| IMOAnswerBench (Pass@1) | 88,4% | 89,8% | 75,3% | 91,4% | 81,0% |
Hasil menonjol:
- V4-Pro-Max mencapai rating Codeforces tertinggi dari semua model yang diuji (3206), mengalahkan GPT-5.4 (3168) dan Claude Opus 4.6 (N/A)
- V4-Pro-Max unggul di LiveCodeBench (93,5%) di antara model dengan data tersedia
- Dalam matematika kompetisi (IMO), GPT-5.4 sedikit lebih unggul (91,4% vs 89,8%)
Benchmark Pengetahuan dan Penalaran
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 86,2% | 87,5% | 89,1% | 87,5% | 91,0% |
| GPQA Diamond (Pass@1) | 88,1% | 90,1% | 91,3% | 93,0% | 94,3% |
| HLE (Pass@1) | 34,8% | 37,7% | 40,0% | 39,8% | 44,4% |
| SimpleQA-Verified (Pass@1) | 34,1% | 57,9% | 46,2% | 45,3% | 75,6% |
| Apex Shortlist (Pass@1) | 85,7% | 90,2% | 85,9% | 78,1% | 89,1% |
Pengamatan utama:
- Gemini-3.1-Pro unggul di sebagian besar benchmark pengetahuan (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
- V4-Pro-Max memimpin di Apex Shortlist (90,2%) — benchmark penalaran yang sangat menantang
- Skor SimpleQA V4-Pro-Max (57,9%) secara signifikan mengalahkan Opus 4.6 (46,2%) dan GPT-5.4 (45,3%), menunjukkan kemampuan mengingat fakta yang kuat
Benchmark Konteks Panjang
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | Gemini-3.1-Pro High |
|---|---|---|---|---|
| MRCR 1M (MMR) | 78,7% | 83,5% | 92,9% | 76,3% |
| CorpusQA 1M (ACC) | 60,5% | 62,0% | 71,7% | 53,8% |
Analisis:
- V4-Pro mengalahkan Gemini-3.1-Pro di CorpusQA 1M (62,0% vs 53,8%)
- Claude Opus 4.6 memimpin MRCR 1M (92,9% vs 83,5%) — kemungkinan karena optimisasi arsitektur Claude untuk pengambilan dokumen
- Kedua model V4 melampaui Gemini di CorpusQA dengan nyaman, menjadikannya pilihan kuat untuk beban kerja RAG
Benchmark Tugas Agentik
| Benchmark | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| Terminal Bench 2.0 (Acc) | 56,9% | 67,9% | 65,4% | 75,1% | 68,5% |
| SWE-bench Verified (Resolved) | 79,0% | 80,6% | 80,8% | N/A | 80,6% |
| SWE-bench Pro (Resolved) | 52,6% | 55,4% | 57,3% | 57,7% | 54,2% |
| BrowseComp (Pass@1) | 73,2% | 83,4% | 83,7% | 82,7% | 85,9% |
| MCPAtlas Public (Pass@1) | 69,0% | 73,6% | 73,8% | 67,2% | 69,2% |
| Toolathlon (Pass@1) | 47,8% | 51,8% | 47,2% | 54,6% | 48,8% |
Hasil menonjol:
- SWE-bench Verified: V4-Pro (80,6%) menyamai Gemini-3.1-Pro (80,6%) dan hampir menyamai Opus 4.6 (80,8%) — luar biasa untuk model terbuka
- MCPAtlas: V4-Pro (73,6%) hampir menyamai pemimpin kategori Opus 4.6 (73,8%)
- Terminal Bench 2.0: GPT-5.4 memimpin (75,1%), dengan V4-Pro di posisi 67,9%
Benchmark Model Dasar
Hasil V4-Pro-Base (pra-latih, sebelum instruction-tuning) menunjukkan kemampuan mentah yang mengesankan:
| Benchmark | DS-V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (EM) | 87,8% | 88,7% | 90,1% |
| MMLU-Redux (EM) | 87,5% | 89,4% | 90,8% |
| GSM8K (EM) | 91,1% | 90,8% | 92,6% |
| HumanEval (Pass@1) | 62,8% | 69,5% | 76,8% |
| LongBench-V2 (EM) | 40,2% | 44,7% | 51,5% |
V4-Pro-Base secara konsisten mengungguli V3.2-Base dan V4-Flash-Base di semua kategori.
Ringkasan: Keunggulan dan Kelemahan DeepSeek V4
V4-Pro-Max unggul dalam:
- Pemrograman kompetitif Codeforces (rating 3206)
- LiveCodeBench (93,5%)
- Penalaran Apex Shortlist (90,2%)
- Pengingatan fakta SimpleQA (57,9%) vs sebagian besar model non-Gemini
V4-Pro-Max tertinggal dalam:
- GPQA Diamond (Gemini unggul di 94,3%)
- Penalaran tersulit HLE (Gemini unggul di 44,4%)
- Konteks panjang MRCR 1M (Opus 4.6 unggul di 92,9%)
- Tugas agentik Terminal Bench 2.0 (GPT-5.4 unggul di 75,1%)
Untuk platform dan alat berbasis AI seperti Framia.pro di mana coding, tugas agentik, dan pemahaman konteks panjang menjadi kebutuhan utama, profil benchmark DeepSeek V4-Pro menjadikannya salah satu pilihan paling menarik yang tersedia pada 2026.
Kesimpulan
DeepSeek V4-Pro adalah model open-weight terbaik di hampir setiap kategori benchmark, dan bersaing secara serius dengan setiap model frontier sumber tertutup. Performa paling luar biasanya ada di bidang coding kompetitif, di mana ia melampaui semua model lain yang diuji. Ia sedikit tertinggal dalam tugas penalaran ilmiah paling sulit dan pengambilan dokumen panjang, tetapi selisihnya terus menyempit.