Benchmark DeepSeek V4: Skor di LiveCodeBench, MMLU, SWE-bench, dan Lainnya

DeepSeek V4-Pro meraih 93,5% di LiveCodeBench, 3206 di Codeforces, 90,1% di GPQA Diamond. Analisis benchmark lengkap di semua mode dan pesaing.

by Framia

Benchmark DeepSeek V4: Skor di LiveCodeBench, MMLU, SWE-bench, dan Lainnya

DeepSeek V4 hadir pada 24 April 2026 dengan klaim yang berani: model open source terbaik yang tersedia, rating Codeforces teratas, dan performa mendekati model frontier dalam tugas penalaran, pengetahuan, dan agentik. Berikut analisis lengkap setiap hasil benchmark utama — dipisahkan berdasarkan varian model dan mode penalaran.


Memahami Mode Benchmark DeepSeek V4

DeepSeek V4 melaporkan hasil dalam enam konfigurasi:

Konfigurasi Deskripsi
V4-Flash Non-Think Cepat, tanpa rantai pemikiran
V4-Flash Think High Penalaran diperluas tingkat sedang
V4-Flash Think Max Upaya penalaran maksimum (Flash)
V4-Pro Non-Think Cepat, tanpa rantai pemikiran (Pro)
V4-Pro Think High Penalaran diperluas tingkat sedang (Pro)
V4-Pro Think Max Penalaran maksimum — hasil keseluruhan terbaik

Sebagian besar benchmark kompetitif melaporkan hasil V4-Pro-Max. Itulah angka yang dikutip setiap kali Anda melihat "DeepSeek V4" di berita utama.


Benchmark Coding

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
LiveCodeBench (Pass@1) 91,6% 93,5% 88,8% N/A 91,7%
Rating Codeforces 3052 3206 N/A 3168 3052
HMMT 2026 Feb (Pass@1) 94,8% 95,2% 96,2% 97,7% 94,7%
IMOAnswerBench (Pass@1) 88,4% 89,8% 75,3% 91,4% 81,0%

Hasil menonjol:

  • V4-Pro-Max mencapai rating Codeforces tertinggi dari semua model yang diuji (3206), mengalahkan GPT-5.4 (3168) dan Claude Opus 4.6 (N/A)
  • V4-Pro-Max unggul di LiveCodeBench (93,5%) di antara model dengan data tersedia
  • Dalam matematika kompetisi (IMO), GPT-5.4 sedikit lebih unggul (91,4% vs 89,8%)

Benchmark Pengetahuan dan Penalaran

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro (EM) 86,2% 87,5% 89,1% 87,5% 91,0%
GPQA Diamond (Pass@1) 88,1% 90,1% 91,3% 93,0% 94,3%
HLE (Pass@1) 34,8% 37,7% 40,0% 39,8% 44,4%
SimpleQA-Verified (Pass@1) 34,1% 57,9% 46,2% 45,3% 75,6%
Apex Shortlist (Pass@1) 85,7% 90,2% 85,9% 78,1% 89,1%

Pengamatan utama:

  • Gemini-3.1-Pro unggul di sebagian besar benchmark pengetahuan (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
  • V4-Pro-Max memimpin di Apex Shortlist (90,2%) — benchmark penalaran yang sangat menantang
  • Skor SimpleQA V4-Pro-Max (57,9%) secara signifikan mengalahkan Opus 4.6 (46,2%) dan GPT-5.4 (45,3%), menunjukkan kemampuan mengingat fakta yang kuat

Benchmark Konteks Panjang

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max Gemini-3.1-Pro High
MRCR 1M (MMR) 78,7% 83,5% 92,9% 76,3%
CorpusQA 1M (ACC) 60,5% 62,0% 71,7% 53,8%

Analisis:

  • V4-Pro mengalahkan Gemini-3.1-Pro di CorpusQA 1M (62,0% vs 53,8%)
  • Claude Opus 4.6 memimpin MRCR 1M (92,9% vs 83,5%) — kemungkinan karena optimisasi arsitektur Claude untuk pengambilan dokumen
  • Kedua model V4 melampaui Gemini di CorpusQA dengan nyaman, menjadikannya pilihan kuat untuk beban kerja RAG

Benchmark Tugas Agentik

Benchmark V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc) 56,9% 67,9% 65,4% 75,1% 68,5%
SWE-bench Verified (Resolved) 79,0% 80,6% 80,8% N/A 80,6%
SWE-bench Pro (Resolved) 52,6% 55,4% 57,3% 57,7% 54,2%
BrowseComp (Pass@1) 73,2% 83,4% 83,7% 82,7% 85,9%
MCPAtlas Public (Pass@1) 69,0% 73,6% 73,8% 67,2% 69,2%
Toolathlon (Pass@1) 47,8% 51,8% 47,2% 54,6% 48,8%

Hasil menonjol:

  • SWE-bench Verified: V4-Pro (80,6%) menyamai Gemini-3.1-Pro (80,6%) dan hampir menyamai Opus 4.6 (80,8%) — luar biasa untuk model terbuka
  • MCPAtlas: V4-Pro (73,6%) hampir menyamai pemimpin kategori Opus 4.6 (73,8%)
  • Terminal Bench 2.0: GPT-5.4 memimpin (75,1%), dengan V4-Pro di posisi 67,9%

Benchmark Model Dasar

Hasil V4-Pro-Base (pra-latih, sebelum instruction-tuning) menunjukkan kemampuan mentah yang mengesankan:

Benchmark DS-V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (EM) 87,8% 88,7% 90,1%
MMLU-Redux (EM) 87,5% 89,4% 90,8%
GSM8K (EM) 91,1% 90,8% 92,6%
HumanEval (Pass@1) 62,8% 69,5% 76,8%
LongBench-V2 (EM) 40,2% 44,7% 51,5%

V4-Pro-Base secara konsisten mengungguli V3.2-Base dan V4-Flash-Base di semua kategori.


Ringkasan: Keunggulan dan Kelemahan DeepSeek V4

V4-Pro-Max unggul dalam:

  • Pemrograman kompetitif Codeforces (rating 3206)
  • LiveCodeBench (93,5%)
  • Penalaran Apex Shortlist (90,2%)
  • Pengingatan fakta SimpleQA (57,9%) vs sebagian besar model non-Gemini

V4-Pro-Max tertinggal dalam:

  • GPQA Diamond (Gemini unggul di 94,3%)
  • Penalaran tersulit HLE (Gemini unggul di 44,4%)
  • Konteks panjang MRCR 1M (Opus 4.6 unggul di 92,9%)
  • Tugas agentik Terminal Bench 2.0 (GPT-5.4 unggul di 75,1%)

Untuk platform dan alat berbasis AI seperti Framia.pro di mana coding, tugas agentik, dan pemahaman konteks panjang menjadi kebutuhan utama, profil benchmark DeepSeek V4-Pro menjadikannya salah satu pilihan paling menarik yang tersedia pada 2026.


Kesimpulan

DeepSeek V4-Pro adalah model open-weight terbaik di hampir setiap kategori benchmark, dan bersaing secara serius dengan setiap model frontier sumber tertutup. Performa paling luar biasanya ada di bidang coding kompetitif, di mana ia melampaui semua model lain yang diuji. Ia sedikit tertinggal dalam tugas penalaran ilmiah paling sulit dan pengambilan dokumen panjang, tetapi selisihnya terus menyempit.