Detail Model AI DeepSeek V4: Spesifikasi Lengkap, Fitur, dan Kemampuan

Panduan lengkap model AI DeepSeek V4: spesifikasi Pro dan Flash, arsitektur, tabel benchmark, harga, kompatibilitas API, dan rekomendasi penggunaan berdasarkan jenis tugas.

by Framia

Detail Model AI DeepSeek V4: Spesifikasi Lengkap, Fitur, dan Kemampuan

Artikel ini merangkum setiap detail penting mengenai spesifikasi, fitur, dan kemampuan DeepSeek V4 ke dalam satu referensi komprehensif — panduan definitif bagi siapa saja yang mengevaluasi, mengintegrasikan, atau mempelajari seri V4.


Spesifikasi Inti

DeepSeek-V4-Pro

Spesifikasi Detail
Arsitektur Mixture of Experts (MoE) + Hybrid Attention (CSA + HCA) + mHC
Total Parameter 1,6 Triliun
Parameter Aktif (per token) 49 Miliar
Panjang Konteks 1.000.000 token (default)
Data Pra-pelatihan 32T+ token beragam
Lisensi MIT
Tanggal Rilis 24 April 2026 (Pratinjau)
Presisi FP4 (experts) + FP8 (bobot lainnya) campuran
Ukuran Unduhan ~865 GB
ID HuggingFace deepseek-ai/DeepSeek-V4-Pro
Nama Model API deepseek-v4-pro
Harga Input API $1,74 per 1 juta token
Harga Output API $3,48 per 1 juta token

DeepSeek-V4-Flash

Spesifikasi Detail
Arsitektur MoE + Hybrid Attention (CSA + HCA) + mHC
Total Parameter 284 Miliar
Parameter Aktif (per token) 13 Miliar
Panjang Konteks 1.000.000 token (default)
Data Pra-pelatihan 32T+ token beragam
Lisensi MIT
Tanggal Rilis 24 April 2026 (Pratinjau)
Presisi FP4 (experts) + FP8 (bobot lainnya) campuran
Ukuran Unduhan ~160 GB
ID HuggingFace deepseek-ai/DeepSeek-V4-Flash
Nama Model API deepseek-v4-flash
Harga Input API $0,14 per 1 juta token
Harga Output API $0,28 per 1 juta token

Pendalaman Arsitektur

Hybrid Attention: CSA + HCA

Inovasi mendasar dalam arsitektur V4 menggabungkan dua mekanisme attention yang saling melengkapi:

Compressed Sparse Attention (CSA): Menerapkan kompresi per-token pada pasangan kunci-nilai untuk konteks jarak menengah, mempertahankan akurasi sambil mengurangi kebutuhan memori dan komputasi.

Heavily Compressed Attention (HCA): Menerapkan kompresi agresif pada token yang sangat jauh, menyimpan representasi ringkasan yang kompak sehingga model dapat "mengingat" informasi di seluruh konteks satu juta token tanpa overhead attention penuh.

Efek gabungan pada konteks 1 juta token dibandingkan V3.2:

  • FLOPs inferensi: berkurang menjadi 27% dari V3.2
  • Memori KV Cache: berkurang menjadi 10% dari V3.2

Manifold-Constrained Hyper-Connections (mHC)

Menggantikan koneksi residual standar di seluruh jaringan. Dengan membatasi pembaruan bobot pada manifold Riemann, mHC memperkuat propagasi sinyal di ratusan lapisan transformer V4-Pro — memungkinkan pelatihan stabil pada 1,6 triliun parameter.

Optimizer Muon

Optimizer Muon (Momentum + Ortogonalisasi) menggantikan AdamW. Dengan mengortogonalisasi pembaruan gradien:

  • Menghilangkan redundansi antara langkah pembaruan berturut-turut
  • Mencapai konvergensi lebih cepat (pembelajaran lebih banyak per langkah pelatihan)
  • Memberikan stabilitas lebih besar pada skala pra-pelatihan 32T+ token

Tiga Mode Penalaran

Mode Deskripsi Konfigurasi API Kebutuhan Konteks
Non-think Respons langsung, tanpa chain-of-thought thinking: {type: "disabled"} Standar
Think High Penalaran terstruktur dengan anggaran token thinking: {type: "enabled", budget_tokens: N} Standar
Think Max Penalaran mendalam dan menyeluruh System prompt khusus + thinking: {type: "max"} 384K+ token

Dampak performa (V4-Pro):

Benchmark Non-Think Think Max
LiveCodeBench 56,8% 93,5%
GPQA Diamond 72,9% 90,1%
Codeforces Rating N/A 3206
HMMT 2026 Feb 31,7% 95,2%

Kemampuan Utama

Pemrograman

  • Rating Codeforces terbaik model terbuka: 3206
  • LiveCodeBench: 93,5% (Pass@1)
  • SWE-bench Verified: 80,6% (Terselesaikan)
  • SWE-bench Pro: 55,4% (Terselesaikan)
  • SWE-bench Multilingual: 76,2% (Terselesaikan)
  • Integrasi native dengan Claude Code, OpenClaw, OpenCode

Penalaran dan Pengetahuan

  • MMLU-Pro: 87,5% (Think Max)
  • GPQA Diamond: 90,1% (Think Max)
  • HLE: 37,7% (Think Max)
  • SimpleQA-Verified: 57,9% (Think Max)
  • MMMLU (multibahasa): 90,3% (basis)

Konteks Panjang

  • MRCR 1M (jarum dalam tumpukan jerami): 83,5% (Think Max) — mengalahkan Gemini-3.1-Pro
  • CorpusQA 1M: 62,0% (Think Max) — skor terbaik selain Claude
  • LongBench-V2 (basis): 51,5%

Tugas Agentik

  • Terminal Bench 2.0: 67,9% (Think Max)
  • SWE-bench Verified: 80,6%
  • MCPAtlas Public: 73,6% (Think Max) — skor terbuka terbaik
  • BrowseComp: 83,4% (Think Max)
  • Toolathlon: 51,8% (Think Max)

Kompatibilitas API

Format API Dukungan
OpenAI ChatCompletions ✅ Kompatibilitas penuh
Anthropic Messages API ✅ Kompatibilitas penuh
Pemanggilan Alat/Fungsi ✅ Didukung
Streaming ✅ Didukung
Konten Berpikir (reasoning_content) ✅ Tersedia di mode Think High/Max

Varian Model yang Tersedia

Model Tipe Tersedia Di
DeepSeek-V4-Pro Instruct (dioptimalkan untuk chat) HuggingFace, ModelScope, API
DeepSeek-V4-Pro-Base Basis pra-pelatihan HuggingFace, ModelScope
DeepSeek-V4-Flash Instruct (dioptimalkan untuk chat) HuggingFace, ModelScope, API
DeepSeek-V4-Flash-Base Basis pra-pelatihan HuggingFace, ModelScope

Integrasi Agentik

DeepSeek V4 terintegrasi secara native dengan:

  • Claude Code — asisten coding AI terkemuka
  • OpenClaw — framework multi-agen open source
  • OpenCode — sistem coding otonom open source

Model ini sudah menggerakkan infrastruktur coding agentik internal DeepSeek sendiri.


Metode Akses

  1. Web: chat.deepseek.com (Mode Instan = Flash; Mode Pakar = Pro)
  2. API: api.deepseek.com/v1 — perbarui model ke deepseek-v4-pro atau deepseek-v4-flash
  3. HuggingFace: Unduh bobot untuk penerapan lokal
  4. ModelScope: Unduhan alternatif untuk akses lebih cepat di Tiongkok
  5. Penyedia inferensi pihak ketiga: Berbagai penyedia termasuk Novita menawarkan akses API V4

Migrasi Model Lama

Nama Model Lama Sekarang Diarahkan Ke Pensiun
deepseek-chat deepseek-v4-flash (non-thinking) 24 Juli 2026
deepseek-reasoner deepseek-v4-flash (thinking) 24 Juli 2026

Rekomendasi Penggunaan Berdasarkan Jenis Tugas

Tugas Konfigurasi yang Direkomendasikan Alasan
Chat dan tanya jawab V4-Flash Non-think Cepat dan hemat biaya
Penyelesaian kode V4-Flash Non-think Kecepatan sangat penting
Desain algoritma kompleks V4-Pro Think High Keseimbangan akurasi/kecepatan
Pemrograman kompetitif V4-Pro Think Max Performa maksimal
Peringkasan dokumen V4-Flash Non-think Beban kerja volume tinggi
Analisis dokumen mendalam V4-Pro Think High Akurasi pada konteks besar
Agen otonom V4-Pro Think Max Tugas multi-langkah yang kompleks

Platform AI-native seperti Framia.pro mengimplementasikan routing cerdas di antara konfigurasi ini — mencocokkan kompleksitas tugas dengan varian dan mode V4 yang tepat untuk mengoptimalkan kualitas dan biaya dalam alur kerja kreatif.


Kesimpulan

DeepSeek V4 adalah seri model open-weight paling canggih yang tersedia per April 2026. Dengan 1,6 triliun parameter (V4-Pro), lisensi MIT, jendela konteks standar 1 juta token, tiga mode penalaran, kemampuan coding kelas frontier, dan harga 10–35 kali lebih rendah dari alternatif sumber tertutup, ini merupakan lompatan nyata dalam kemampuan AI yang dapat diakses secara luas.