Paper DeepSeek V4: Temuan Teknis Utama dari Laporan Resmi

Ringkasan paper teknis DeepSeek V4: Hybrid Attention (CSA+HCA), mHC, Muon optimizer, post-training dua tahap, dan hasil benchmark utama dijelaskan secara lengkap.

by Framia

Paper DeepSeek V4: Temuan Teknis Utama dari Laporan Resmi

DeepSeek merilis laporan teknis lengkap untuk DeepSeek V4 beserta bobot model pada 24 April 2026. Berjudul "DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence", dokumen akademik komprehensif ini mencakup arsitektur model, metodologi pelatihan, dan hasil evaluasi.

Artikel ini merangkum temuan teknis terpenting untuk para peneliti, insinyur, dan praktisi yang ingin memahami lebih dalam.


Gambaran Umum Paper

Judul: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
Penulis: DeepSeek-AI
Tahun: 2026
Tersedia di: huggingface.co/deepseek-ai/DeepSeek-V4-Pro (dalam file repositori sebagai DeepSeek_V4.pdf)

Paper ini memperkenalkan seri V4 — DeepSeek-V4-Pro (1,6T / 49B aktif) dan DeepSeek-V4-Flash (284B / 13B aktif) — serta merinci tiga inovasi utama: Arsitektur Hybrid Attention, mHC (Manifold-Constrained Hyper-Connections), dan Muon Optimizer.


Temuan 1: Masalah Konteks 1 Juta Token dan Solusinya

Kontribusi utama paper ini adalah memecahkan tantangan membuat konteks 1 juta token dapat digunakan secara praktis — bukan sekadar mungkin secara teoritis.

Masalahnya: Mekanisme attention standar berskala kuadratik dengan panjang urutan. Dengan 1 juta token, attention standar akan membutuhkan:

  • Komputasi per token yang jauh lebih besar secara berlipat ganda
  • Memori KV cache yang tidak praktis besarnya

Solusinya — Arsitektur Hybrid Attention: Paper ini mengusulkan kombinasi dua mekanisme attention yang saling melengkapi:

Compressed Sparse Attention (CSA):

  • Menerapkan kompresi kunci-nilai per token
  • Mempertahankan keakuratan tinggi untuk token terbaru dan relevan
  • Mengurangi overhead attention untuk konteks yang agak jauh

Heavily Compressed Attention (HCA):

  • Menerapkan kompresi agresif pada token yang sangat jauh
  • Secara efektif menciptakan representasi kompak dari riwayat yang jauh
  • Memungkinkan model "mengingat" dalam rentang sangat panjang dengan biaya minimal

Hasil terukur: Dalam pengaturan konteks 1 juta token, V4-Pro hanya membutuhkan 27% FLOPs inferensi token tunggal dan 10% KV cache dibandingkan DeepSeek-V3.2. Ini adalah kontribusi praktis paling signifikan dalam paper ini.


Temuan 2: Manifold-Constrained Hyper-Connections (mHC)

Koneksi residual standar dalam transformer yang dalam dapat mengalami degradasi gradien seiring bertambahnya kedalaman jaringan. Paper ini memperkenalkan mHC untuk mengatasi hal ini.

Inovasinya: mHC membatasi pembaruan bobot agar berada pada manifold Riemannian — ruang geometri yang mulus. Hal ini:

  • Memperkuat propagasi sinyal antar lapisan
  • Mencegah ledakan/lenyapnya gradien di jaringan yang sangat dalam
  • Mempertahankan daya ekspresif model sembari meningkatkan stabilitas

Efek praktis: mHC memungkinkan pelatihan yang andal pada 1,6 triliun parameter. Tanpa peningkatan stabilitas ini, penskalaan ke jumlah parameter tersebut dengan Arsitektur Hybrid Attention akan jauh lebih menantang.


Temuan 3: Muon Optimizer

Paper ini menguraikan secara rinci adopsi Muon Optimizer sebagai pengganti pelatihan berbasis AdamW standar.

Muon bekerja dengan mengortogonalisasi pembaruan gradien — menghapus korelasi antara arah pembaruan:

  • Langkah gradien menjadi lebih independen
  • Konvergensi lebih cepat: model belajar lebih banyak per langkah pelatihan
  • Pelatihan lebih stabil pada skala yang sangat besar

Dikombinasikan dengan pra-pelatihan pada lebih dari 32T token beragam, Muon menghasilkan model dengan cakupan kuat di pengetahuan dunia, kode, matematika, sains, dan teks multibahasa.


Temuan 4: Pipeline Post-Training Dua Tahap

Salah satu kontribusi paling baru dalam paper ini adalah metodologi post-training:

Tahap 1: Pengembangan Ahli Independen

  • Setiap ahli MoE dilatih secara independen di domain spesialisasinya
  • Menggunakan SFT (Supervised Fine-Tuning) + RL dengan GRPO (Group Relative Policy Optimization)
  • Setiap ahli mengembangkan kemahiran yang dalam dan spesifik

Tahap 2: Konsolidasi Model Terpadu

  • Distilasi on-policy mengintegrasikan kemahiran beragam ahli ke dalam satu model
  • Model akhir memiliki akses ke semua keahlian domain tanpa perlu beralih antar model terpisah

Pipeline ini menjelaskan mengapa V4-Pro menunjukkan performa yang sangat kuat secara bersamaan di berbagai jenis tugas yang sangat berbeda — pengetahuan dunia yang mendalam DAN pengkodean mutakhir DAN pengambilan konteks panjang.


Temuan 5: Detail Arsitektur MoE

Paper ini menjelaskan implementasi MoE secara rinci:

Konfigurasi Ahli V4-Pro:

  • Total 1,6T parameter di semua ahli
  • 49B diaktifkan per token
  • Router memilih ahli yang relevan per token menggunakan bobot routing yang dipelajari
  • Parameter ahli disimpan dalam presisi FP4 (sebagian besar bobot lainnya dalam FP8)

V4-Flash:

  • Total 284B / 13B aktif
  • Inovasi arsitektur yang sama tetapi dalam skala lebih kecil
  • Menggunakan skema presisi campuran FP4 + FP8 yang sama

Paper ini mencatat bahwa V4-Flash, meskipun lebih kecil dari V3.2 (671B / 37B), mencapai performa yang sebanding atau lebih baik di sebagian besar benchmark — membuktikan efisiensi yang diperoleh dari arsitektur baru.


Temuan 6: Evaluasi Model Dasar

Paper ini menyediakan hasil benchmark model dasar (sebelum instruction tuning) yang ekstensif, membuktikan bahwa kemampuan V4-Pro muncul kuat dari pra-pelatihan:

Hasil model dasar utama (V4-Pro-Base vs V3.2-Base):

  • MMLU: 90,1% vs 87,8% (+2,3pp)
  • MMLU-Redux: 90,8% vs 87,5% (+3,3pp)
  • Simple-QA terverifikasi: 55,2% vs 28,3% (+26,9pp — lonjakan besar)
  • HumanEval: 76,8% vs 62,8% (+14pp)
  • LongBench-V2: 51,5% vs 40,2% (+11,3pp)

Lonjakan Simple-QA terverifikasi (+26,9pp) sangat mencolok — menunjukkan peningkatan mendasar dalam landasan pengetahuan dunia di tingkat model dasar.


Temuan 7: Sistem Inferensi Tiga Mode

Paper ini memperkenalkan kerangka penalaran tiga mode sebagai fitur arsitektur utama:

Non-think: Model menghasilkan respons langsung tanpa rantai pikiran eksplisit
Think High: Proses berpikir terkontrol dengan alokasi token yang dianggarkan
Think Max: Penalaran diperpanjang dengan system prompt khusus, membutuhkan ruang konteks 384K+ token

Paper ini menunjukkan bahwa Think Max secara signifikan menutup kesenjangan dengan model frontier sumber tertutup pada benchmark penalaran sulit — menunjukkan bahwa kedalaman penalaran, bukan hanya jumlah parameter, adalah faktor penentu utama performa pada tugas kompleks.


Temuan 8: Performa Agentik

Paper ini menekankan fokus DeepSeek pada kemampuan agentik, melaporkan hasil yang kuat pada:

  • SWE-bench Verified: 80,6% (setara Gemini-3.1-Pro, hampir menyamai Claude Opus 4.6)
  • Terminal Bench 2.0: 67,9% (bersaing dengan model terbuka terbaik)
  • MCPAtlas: 73,6% (mendekati SOTA)

Paper ini juga mencatat integrasi dengan Claude Code, OpenClaw, dan OpenCode sebagai lingkungan deployment yang didukung secara resmi.


Kutipan

Untuk penggunaan akademik:

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}

Kesimpulan

Laporan teknis DeepSeek V4 adalah dokumen akademik padat dan berkualitas tinggi yang benar-benar memajukan bidang ini. Kontribusi utamanya — Hybrid Attention (CSA + HCA), mHC, dan pipeline post-training dua tahap — adalah inovasi konkret yang dapat direproduksi dan dipelajari serta dikembangkan oleh komunitas riset AI yang lebih luas. Platform seperti Framia.pro yang memanfaatkan model AI mutakhir mendapat manfaat langsung dari kemajuan arsitektur yang didokumentasikan dalam paper-paper seperti ini, yang mendorong peningkatan kemampuan sekaligus pengurangan biaya di seluruh ekosistem.