Arsitektur Model DeepSeek V4: Hybrid Attention, mHC, dan MoE Dijelaskan

DeepSeek V4 menggunakan Hybrid Attention (CSA + HCA), Manifold-Constrained Hyper-Connections, dan Muon Optimizer. Inilah yang sebenarnya dilakukan setiap inovasi tersebut.

by Framia

Arsitektur Model DeepSeek V4: Hybrid Attention, mHC, dan MoE Dijelaskan

DeepSeek V4 bukan sekadar versi V3 yang lebih besar. Model ini memperkenalkan serangkaian perubahan arsitektur fundamental yang meningkatkan efisiensi secara dramatis, terutama untuk beban kerja konteks panjang. Jika Anda ingin memahami mengapa DeepSeek V4 dapat menangani 1 juta token sebagai default — dan melakukannya dengan jauh lebih sedikit komputasi dibanding model sebelumnya — panduan ini membahas setiap inovasi utama secara mendetail.


Gambaran Umum: Empat Pilar Arsitektur Utama

  1. Mixture of Experts (MoE) — aktivasi sparse untuk efisiensi komputasi
  2. Arsitektur Hybrid Attention (CSA + HCA) — kunci efisiensi konteks 1 juta token
  3. Manifold-Constrained Hyper-Connections (mHC) — propagasi sinyal yang stabil
  4. Muon Optimizer — pelatihan yang lebih cepat dan lebih stabil

Mari kita bahas satu per satu.


1. Mixture of Experts (MoE)

DeepSeek V4 menggunakan arsitektur MoE pada kedua varian Pro (1,6T / 49B aktif) dan Flash (284B / 13B aktif). MoE bekerja dengan membagi lapisan feed-forward model menjadi banyak "pakar" yang terspesialisasi, dengan router yang dapat dilatih untuk memilih pakar yang paling relevan bagi setiap token.

Mengapa ini penting: Anda mendapatkan kapasitas pengetahuan model dengan ratusan miliar atau triliun parameter, tetapi hanya mengaktifkan sebagian kecil dari parameter tersebut per token. Biaya inferensi berskala dengan parameter aktif, bukan parameter total — menjadikan MoE jauh lebih efisien secara komputasi dibandingkan model padat yang setara.

Pipeline pasca-pelatihan DeepSeek menambahkan pendekatan dua tahap yang khas:

  • Tahap 1: Spesialisasi pakar independen melalui SFT dan RL dengan GRPO
  • Tahap 2: Konsolidasi model terpadu melalui distilasi on-policy — menggabungkan semua keahlian khusus ke dalam satu model yang koheren

2. Arsitektur Hybrid Attention: CSA + HCA

Ini adalah inovasi paling signifikan DeepSeek V4, dan alasan mengapa 1 juta token kini menjadi panjang konteks default.

Masalah dengan Attention Standar pada Konteks Panjang

Attention transformer standar berskala secara kuadratik dengan panjang urutan. Untuk 1 juta token, ini akan membutuhkan jumlah memori (cache KV) dan komputasi yang sangat besar — membuatnya tidak praktis.

Solusi DeepSeek: Dua Mekanisme Attention yang Saling Melengkapi

Compressed Sparse Attention (CSA)

  • Menerapkan kompresi per token, mengurangi jumlah pasangan kunci-nilai yang perlu disimpan dan diambil
  • Memungkinkan model mengakses konteks jauh secara efisien tanpa menyimpan seluruh urutan pada resolusi penuh

Heavily Compressed Attention (HCA)

  • Melangkah lebih jauh, menerapkan kompresi agresif pada token yang sangat jauh dari posisi saat ini
  • Pada dasarnya memberi tahu model: "untuk token yang jauh dalam riwayat, simpan ringkasan yang sangat dikompresi — jangan coba mengingat setiap detail"

Bersama-sama, CSA dan HCA menciptakan sistem memori bertingkat: token terbaru mendapat perhatian penuh, token yang agak jauh mendapat perhatian yang dikompresi, dan token yang sangat jauh mendapat perhatian yang sangat dikompresi. Ini mencerminkan cara kerja memori kerja manusia yang sesungguhnya.

Hasilnya: Peningkatan Efisiensi yang Luar Biasa

Dalam skenario konteks 1 juta token:

  • V4-Pro hanya membutuhkan 27% FLOPs inferensi token tunggal dibandingkan V3.2
  • V4-Pro hanya membutuhkan 10% memori cache KV dibandingkan V3.2

Itu sekitar 3,7x pengurangan komputasi dan 10x pengurangan memori — memungkinkan konteks 1 juta token pada perangkat keras yang sebelumnya mustahil untuk V3.2.


3. Manifold-Constrained Hyper-Connections (mHC)

Saat model berskala hingga triliunan parameter di ratusan lapisan, mode kegagalan umum adalah degradasi gradien — sinyal menjadi terlalu lemah atau terlalu berisik untuk merambat secara efektif melalui jaringan yang dalam.

Solusi DeepSeek adalah mHC (Manifold-Constrained Hyper-Connections), yang menyempurnakan koneksi residual konvensional dengan membatasi pembaruan bobot agar berada pada manifold Riemannian. Secara sederhana, mHC:

  • Memperkuat jalur residual antara lapisan transformer
  • Menstabilkan cara sinyal mengalir melalui kedalaman jaringan
  • Mempertahankan ekspresivitas model sambil mencegah ledakan atau hilangnya gradien

Efek praktisnya: V4-Pro dengan 1,6T parameter dapat dilatih secara andal pada skala yang akan mendestabilisasi sebagian besar arsitektur lain.


4. Muon Optimizer

DeepSeek V4 menggantikan optimizer AdamW standar dengan Muon Optimizer (singkatan dari Momentum + Orthogonalization). Muon:

  • Menerapkan langkah ortogonalisasi pada pembaruan gradien, mencegah pembaruan redundan sepanjang arah yang berkorelasi
  • Mencapai konvergensi yang lebih cepat — model belajar lebih banyak dari setiap langkah pelatihan
  • Memberikan stabilitas pelatihan yang lebih besar — sangat penting pada skala pra-pelatihan 32T+ token

V4-Pro dan V4-Flash keduanya dipra-latih pada lebih dari 32 triliun token yang beragam dan berkualitas tinggi menggunakan Muon, memberikan model cakupan yang luar biasa tentang pengetahuan dunia, kode, matematika, dan teks multibahasa.


Tiga Mode Upaya Penalaran: Arsitektur Bertemu Inferensi

Arsitektur ini memungkinkan sistem inferensi tiga mode yang fleksibel:

Mode Perilaku Kasus Penggunaan
Non-think Tanpa rantai pemikiran eksplisit Kueri cepat, tugas sederhana
Think High Rantai pemikiran terkontrol Penalaran kompleks, perencanaan
Think Max Penalaran mendalam dan menyeluruh Matematika kompetisi, coding canggih

Think Max membutuhkan setidaknya jendela konteks 384K token untuk bekerja dengan baik. Ini tersedia dengan mudah dalam batas 1 juta token V4.


Perbandingan dengan Arsitektur DeepSeek V3.2

DeepSeek-V3.2 menggunakan 671B total / 37B parameter aktif dan skema attention yang berbeda. Beralih ke V4:

  • Total parameter hampir tiga kali lipat (671B → 1,6T untuk Pro)
  • Parameter aktif tumbuh dari 37B → 49B
  • Cache KV berkurang 10x untuk konteks 1 juta token
  • Komputasi per token berkurang sekitar 73%
  • Optimizer baru (Muon vs. varian AdamW)
  • Pipeline pelatihan baru (konsolidasi pakar dua tahap)

Bagi platform seperti Framia.pro yang menggerakkan agen AI dalam skala besar, peningkatan efisiensi arsitektur seperti ini langsung berdampak pada biaya yang lebih rendah, respons yang lebih cepat, dan alur kerja kreatif yang lebih canggih.


Kesimpulan

Arsitektur DeepSeek V4 adalah kombinasi yang dirancang dengan cermat dari sparsity MoE, kompresi attention hybrid, koneksi residual berkendala manifold, dan optimizer canggih. Bersama-sama, inovasi-inovasi ini menjadikan konteks 1 juta token tidak hanya mungkin secara teoritis, tetapi secara praktis menjadi default — dengan biaya yang membuatnya dapat diakses oleh pengembang, peneliti, dan perusahaan di seluruh dunia.