Pelatihan DeepSeek V4: Bagaimana Model Ini Dibangun

Cara DeepSeek V4 dilatih: 32T+ token, Muon optimizer, mHC, Hybrid Attention, dan pipeline pasca-pelatihan dua tahap di Huawei Ascend 950PR. Panduan metodologi pelatihan lengkap.

by Framia

Pelatihan DeepSeek V4: Bagaimana Model Ini Dibangun

Memahami cara DeepSeek V4 dilatih memberikan wawasan mengapa model ini berkinerja seperti sekarang — dan keputusan arsitektur serta data apa yang menghasilkan model yang melampaui ekspektasi dalam hal pengkodean, penalaran, dan pemrosesan konteks panjang. Panduan ini mencakup pra-pelatihan, pasca-pelatihan V4, serta inovasi kunci yang membedakannya dari pendahulunya.


Pra-Pelatihan: Skala dan Data

Ukuran Dataset: 32 Triliun+ Token

Baik V4-Pro maupun V4-Flash dilatih dengan lebih dari 32 triliun token data yang beragam dan berkualitas tinggi. Ini hampir dua kali lipat estimasi 18 triliun token pra-pelatihan DeepSeek-V3, yang merepresentasikan investasi besar dalam komputasi pelatihan dan kurasi data.

Korpus pelatihan mencakup:

  • Bahasa alami — teks web, buku, artikel dalam puluhan bahasa
  • Kode — kode sumber dalam semua bahasa pemrograman utama
  • Matematika — bukti formal, soal kompetisi, buku teks
  • Literatur ilmiah — makalah penelitian dari berbagai disiplin STEM
  • Konten multibahasa — cakupan multibahasa yang kuat, dibuktikan oleh skor MMMLU 90,3%

Mengapa Lebih Banyak Data Penting

Hubungan antara skala data pelatihan dan kemampuan model tidaklah linier — tetapi pada skala frontier, data yang lebih banyak, beragam, dan berkualitas tinggi secara konsisten meningkatkan keluasan pengetahuan, akurasi faktual, dan kemampuan generalisasi.

Lonjakan dramatis V4-Pro-Base pada SimpleQA-Verified (55,2% vs 28,3% pada V3.2) mencerminkan peningkatan skala data yang dikombinasikan dengan kurasi data yang lebih baik — model ini telah menyerap jauh lebih banyak pengetahuan dunia.


Muon Optimizer

DeepSeek mengganti AdamW optimizer standar dengan Muon Optimizer untuk V4.

Cara Kerja Muon

Optimizer berbasis Adam standar memperbarui parameter berdasarkan arah dan besaran gradien. Muon menambahkan langkah ortogonalisasi: sebelum menerapkan pembaruan gradien, korelasi antara pembaruan saat ini dan arah pembaruan sebelumnya dihapus.

Hasilnya:

  • Konvergensi lebih cepat: Informasi yang lebih berguna diekstrak dari setiap langkah pelatihan
  • Stabilitas lebih besar: Pembaruan yang diortogonalisasi lebih kecil kemungkinannya menyebabkan osilasi atau divergensi
  • Skalabilitas lebih baik: Sifat stabilitas Muon sangat berharga pada skala V4 (1,6 triliun parameter)

Bayangkan ini sebagai eksplorasi ruang parameter yang lebih efisien: Muon mencegah langkah-langkah berlebihan dengan memastikan setiap pembaruan gradien bergerak dalam arah yang benar-benar baru.


Inovasi Arsitektur Selama Pra-Pelatihan

Arsitektur Hybrid Attention (CSA + HCA)

Berbeda dari V3.2 yang menggunakan Multi-head Latent Attention (MLA), V4 dilatih dari awal dengan Arsitektur Hybrid Attention. Ini berarti representasi internal model dibentuk oleh mekanisme CSA + HCA sejak awal — bukan ditambahkan pada arsitektur lama.

Inilah mengapa V4 menangani konteks 1 juta token dengan lebih alami: pola perhatian yang dipelajari selama pra-pelatihan dioptimalkan untuk struktur kompresi hierarkis.

Manifold-Constrained Hyper-Connections (mHC)

mHC menggantikan koneksi residual standar di seluruh jaringan. Pra-pelatihan dengan mHC sejak awal berarti matriks bobot model berkembang dalam ruang yang dibatasi secara struktural yang mendorong propagasi sinyal yang stabil.

Efek praktisnya: melatih model dengan 1,6 triliun parameter pada 32 triliun+ token menjadi layak tanpa ketidakstabilan katastrofik yang menghantui upaya penskalaan arsitektur standar ke ukuran ini.


Pasca-Pelatihan: Pipeline Dua Tahap

Tahap 1: Pembinaan Pakar Independen

Pakar individu dalam arsitektur MoE dilatih secara independen untuk spesialisasi domain:

Supervised Fine-Tuning (SFT):

  • Contoh berlabel berkualitas tinggi di domain setiap pakar
  • Mengajarkan model untuk mengikuti instruksi secara akurat di setiap spesialisasi
  • Mencakup pengkodean, matematika, sains, bahasa, pengetahuan umum, keselamatan

Reinforcement Learning dengan GRPO:

  • Group Relative Policy Optimization memberi hadiah model karena menghasilkan respons yang lebih baik relatif terhadap sekelompok sampel
  • Diterapkan secara independen pada setiap domain/pakar
  • Membentuk perilaku pakar ke arah preferensi manusia tanpa memerlukan model hadiah terpisah

Tahap 2: Konsolidasi Model Terpadu

Setelah tahap 1, pakar yang dilatih secara independen diintegrasikan ke dalam model terpadu melalui distilasi on-policy:

  1. Model yang dikhususkan pada tahap 1 menghasilkan output pada berbagai tugas
  2. Model akhir dilatih untuk mencocokkan (mendistilasi) output ini
  3. Mekanisme routing belajar mengaktifkan pakar yang tepat untuk setiap tugas

Fase konsolidasi inilah yang memberikan V4-Pro kombinasi kemampuan mendalam yang tidak biasa di berbagai domain yang sangat berbeda — setiap pakar benar-benar terspesialisasi, dan router telah belajar menggunakannya dengan tepat.


Perangkat Keras: Huawei Ascend 950PR

Salah satu fakta paling signifikan tentang pelatihan V4 adalah perangkat kerasnya:

V4 dilatih pada chip Huawei Ascend 950PR — bukan A100 atau H100 dari NVIDIA.

Hal ini memiliki beberapa implikasi:

Teknis: Huawei Ascend 950PR adalah akselerator AI berperforma tinggi dengan throughput pelatihan yang kompetitif untuk model berskala besar. Hasil V4 membuktikan bahwa pelatihan AI frontier dapat dicapai pada perangkat keras ini.

Geopolitik: Pembatasan ekspor AS membatasi akses perusahaan Tiongkok ke chip paling canggih NVIDIA. Keberhasilan DeepSeek melatih V4 pada perangkat keras Ascend menunjukkan bahwa kemampuan chip AI domestik Tiongkok lebih tinggi dari yang banyak diasumsikan.

Strategis: Dengan membangun di atas perangkat keras domestik, DeepSeek (dan secara lebih luas ekosistem AI Tiongkok) mengurangi ketergantungan pada rantai pasokan yang dikendalikan AS untuk pengembangan AI frontier.


Penyelarasan Pasca-Pelatihan

Setelah pipeline RLHF dua tahap, V4 menjalani penyesuaian penyelarasan yang berfokus pada keamanan:

  • Contoh SFT tambahan yang mencakup skenario terkait keamanan
  • Panduan bergaya konstitusional yang tertanam dalam pengikutan instruksi
  • Penyelarasan keamanan multibahasa di seluruh bahasa yang didukung V4

Cakupan pasti pasca-pelatihan keamanan DeepSeek tidak sepenuhnya didokumentasikan dalam laporan teknis publik, tetapi praktik industri standar (dan rekam jejak DeepSeek dengan model-model sebelumnya) menyarankan cakupan komprehensif kasus penggunaan berbahaya yang umum.


Biaya Pelatihan: Kisah Efisiensi

DeepSeek sebelumnya telah dipuji karena mencapai hasil frontier dengan biaya pelatihan yang dilaporkan jauh lebih rendah daripada pesaing barat. Biaya pelatihan V4 belum diungkapkan secara resmi, tetapi beberapa faktor menyarankan keunggulan efisiensi yang berkelanjutan:

  1. Muon optimizer: Lebih sedikit langkah gradien yang terbuang
  2. Stabilitas mHC: Lebih sedikit komputasi yang hilang akibat ketidakstabilan pelatihan
  3. Sparsitas MoE: Hanya 49 miliar parameter aktif per token, bukan 1,6 triliun
  4. Optimasi Ascend 950PR: Dirancang khusus untuk jenis pelatihan ini

Kombinasi perbaikan arsitektur dan optimizer berarti V4 mengekstrak lebih banyak kemampuan per FLOP pelatihan dibandingkan pendekatan sebelumnya.


Dari V3.2 ke V4: Apa yang Berubah dalam Pelatihan

Aspek Pelatihan V3.2 V4
Optimizer Varian AdamW Muon
Koneksi residual Standar mHC
Mekanisme attention MLA Hybrid (CSA + HCA)
Token pra-pelatihan ~18 triliun 32 triliun+
Pipeline pasca-pelatihan SFT + RL Dua tahap: spesialisasi + konsolidasi
Perangkat keras NVIDIA (setara H800) Huawei Ascend 950PR

Implikasi bagi Industri

Metodologi pelatihan V4 — terutama Muon optimizer, mHC, dan pasca-pelatihan dua tahap — didokumentasikan secara terbuka dalam laporan teknis dan tersedia untuk dipelajari dan direplikasi oleh komunitas penelitian. Transparansi DeepSeek di sini mencerminkan budaya riset-utama mereka.

Platform seperti Framia.pro yang mengintegrasikan kemampuan AI frontier mendapat manfaat dari budaya berbagi pengetahuan ini: saat teknik pelatihan ini direplikasi dan disempurnakan di seluruh ekosistem, langit-langit kualitas untuk model AI terus meningkat, memperbaiki setiap aplikasi hilir.


Kesimpulan

DeepSeek V4 dibangun melalui kombinasi skala data yang belum pernah ada sebelumnya (32 triliun+ token), inovasi arsitektur (Hybrid Attention, mHC), peningkatan optimizer (Muon), dan pipeline pasca-pelatihan dua tahap yang baru. Hasilnya adalah model yang mencapai performa kelas frontier pada tumpukan perangkat keras domestik Tiongkok — sebuah pencapaian bersejarah yang menetapkan V4 sebagai tonggak teknis sekaligus strategis dalam pengembangan AI.