Detail Model AI DeepSeek V4: Spesifikasi Lengkap, Fitur, dan Kemampuan
Artikel ini merangkum setiap detail penting mengenai spesifikasi, fitur, dan kemampuan DeepSeek V4 ke dalam satu referensi komprehensif — panduan definitif bagi siapa saja yang mengevaluasi, mengintegrasikan, atau mempelajari seri V4.
Spesifikasi Inti
DeepSeek-V4-Pro
| Spesifikasi | Detail |
|---|---|
| Arsitektur | Mixture of Experts (MoE) + Hybrid Attention (CSA + HCA) + mHC |
| Total Parameter | 1,6 Triliun |
| Parameter Aktif (per token) | 49 Miliar |
| Panjang Konteks | 1.000.000 token (default) |
| Data Pra-pelatihan | 32T+ token beragam |
| Lisensi | MIT |
| Tanggal Rilis | 24 April 2026 (Pratinjau) |
| Presisi | FP4 (experts) + FP8 (bobot lainnya) campuran |
| Ukuran Unduhan | ~865 GB |
| ID HuggingFace | deepseek-ai/DeepSeek-V4-Pro |
| Nama Model API | deepseek-v4-pro |
| Harga Input API | $1,74 per 1 juta token |
| Harga Output API | $3,48 per 1 juta token |
DeepSeek-V4-Flash
| Spesifikasi | Detail |
|---|---|
| Arsitektur | MoE + Hybrid Attention (CSA + HCA) + mHC |
| Total Parameter | 284 Miliar |
| Parameter Aktif (per token) | 13 Miliar |
| Panjang Konteks | 1.000.000 token (default) |
| Data Pra-pelatihan | 32T+ token beragam |
| Lisensi | MIT |
| Tanggal Rilis | 24 April 2026 (Pratinjau) |
| Presisi | FP4 (experts) + FP8 (bobot lainnya) campuran |
| Ukuran Unduhan | ~160 GB |
| ID HuggingFace | deepseek-ai/DeepSeek-V4-Flash |
| Nama Model API | deepseek-v4-flash |
| Harga Input API | $0,14 per 1 juta token |
| Harga Output API | $0,28 per 1 juta token |
Pendalaman Arsitektur
Hybrid Attention: CSA + HCA
Inovasi mendasar dalam arsitektur V4 menggabungkan dua mekanisme attention yang saling melengkapi:
Compressed Sparse Attention (CSA): Menerapkan kompresi per-token pada pasangan kunci-nilai untuk konteks jarak menengah, mempertahankan akurasi sambil mengurangi kebutuhan memori dan komputasi.
Heavily Compressed Attention (HCA): Menerapkan kompresi agresif pada token yang sangat jauh, menyimpan representasi ringkasan yang kompak sehingga model dapat "mengingat" informasi di seluruh konteks satu juta token tanpa overhead attention penuh.
Efek gabungan pada konteks 1 juta token dibandingkan V3.2:
- FLOPs inferensi: berkurang menjadi 27% dari V3.2
- Memori KV Cache: berkurang menjadi 10% dari V3.2
Manifold-Constrained Hyper-Connections (mHC)
Menggantikan koneksi residual standar di seluruh jaringan. Dengan membatasi pembaruan bobot pada manifold Riemann, mHC memperkuat propagasi sinyal di ratusan lapisan transformer V4-Pro — memungkinkan pelatihan stabil pada 1,6 triliun parameter.
Optimizer Muon
Optimizer Muon (Momentum + Ortogonalisasi) menggantikan AdamW. Dengan mengortogonalisasi pembaruan gradien:
- Menghilangkan redundansi antara langkah pembaruan berturut-turut
- Mencapai konvergensi lebih cepat (pembelajaran lebih banyak per langkah pelatihan)
- Memberikan stabilitas lebih besar pada skala pra-pelatihan 32T+ token
Tiga Mode Penalaran
| Mode | Deskripsi | Konfigurasi API | Kebutuhan Konteks |
|---|---|---|---|
| Non-think | Respons langsung, tanpa chain-of-thought | thinking: {type: "disabled"} |
Standar |
| Think High | Penalaran terstruktur dengan anggaran token | thinking: {type: "enabled", budget_tokens: N} |
Standar |
| Think Max | Penalaran mendalam dan menyeluruh | System prompt khusus + thinking: {type: "max"} |
384K+ token |
Dampak performa (V4-Pro):
| Benchmark | Non-Think | Think Max |
|---|---|---|
| LiveCodeBench | 56,8% | 93,5% |
| GPQA Diamond | 72,9% | 90,1% |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31,7% | 95,2% |
Kemampuan Utama
Pemrograman
- Rating Codeforces terbaik model terbuka: 3206
- LiveCodeBench: 93,5% (Pass@1)
- SWE-bench Verified: 80,6% (Terselesaikan)
- SWE-bench Pro: 55,4% (Terselesaikan)
- SWE-bench Multilingual: 76,2% (Terselesaikan)
- Integrasi native dengan Claude Code, OpenClaw, OpenCode
Penalaran dan Pengetahuan
- MMLU-Pro: 87,5% (Think Max)
- GPQA Diamond: 90,1% (Think Max)
- HLE: 37,7% (Think Max)
- SimpleQA-Verified: 57,9% (Think Max)
- MMMLU (multibahasa): 90,3% (basis)
Konteks Panjang
- MRCR 1M (jarum dalam tumpukan jerami): 83,5% (Think Max) — mengalahkan Gemini-3.1-Pro
- CorpusQA 1M: 62,0% (Think Max) — skor terbaik selain Claude
- LongBench-V2 (basis): 51,5%
Tugas Agentik
- Terminal Bench 2.0: 67,9% (Think Max)
- SWE-bench Verified: 80,6%
- MCPAtlas Public: 73,6% (Think Max) — skor terbuka terbaik
- BrowseComp: 83,4% (Think Max)
- Toolathlon: 51,8% (Think Max)
Kompatibilitas API
| Format API | Dukungan |
|---|---|
| OpenAI ChatCompletions | ✅ Kompatibilitas penuh |
| Anthropic Messages API | ✅ Kompatibilitas penuh |
| Pemanggilan Alat/Fungsi | ✅ Didukung |
| Streaming | ✅ Didukung |
Konten Berpikir (reasoning_content) |
✅ Tersedia di mode Think High/Max |
Varian Model yang Tersedia
| Model | Tipe | Tersedia Di |
|---|---|---|
| DeepSeek-V4-Pro | Instruct (dioptimalkan untuk chat) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Pro-Base | Basis pra-pelatihan | HuggingFace, ModelScope |
| DeepSeek-V4-Flash | Instruct (dioptimalkan untuk chat) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Flash-Base | Basis pra-pelatihan | HuggingFace, ModelScope |
Integrasi Agentik
DeepSeek V4 terintegrasi secara native dengan:
- Claude Code — asisten coding AI terkemuka
- OpenClaw — framework multi-agen open source
- OpenCode — sistem coding otonom open source
Model ini sudah menggerakkan infrastruktur coding agentik internal DeepSeek sendiri.
Metode Akses
- Web: chat.deepseek.com (Mode Instan = Flash; Mode Pakar = Pro)
- API: api.deepseek.com/v1 — perbarui model ke
deepseek-v4-proataudeepseek-v4-flash - HuggingFace: Unduh bobot untuk penerapan lokal
- ModelScope: Unduhan alternatif untuk akses lebih cepat di Tiongkok
- Penyedia inferensi pihak ketiga: Berbagai penyedia termasuk Novita menawarkan akses API V4
Migrasi Model Lama
| Nama Model Lama | Sekarang Diarahkan Ke | Pensiun |
|---|---|---|
| deepseek-chat | deepseek-v4-flash (non-thinking) | 24 Juli 2026 |
| deepseek-reasoner | deepseek-v4-flash (thinking) | 24 Juli 2026 |
Rekomendasi Penggunaan Berdasarkan Jenis Tugas
| Tugas | Konfigurasi yang Direkomendasikan | Alasan |
|---|---|---|
| Chat dan tanya jawab | V4-Flash Non-think | Cepat dan hemat biaya |
| Penyelesaian kode | V4-Flash Non-think | Kecepatan sangat penting |
| Desain algoritma kompleks | V4-Pro Think High | Keseimbangan akurasi/kecepatan |
| Pemrograman kompetitif | V4-Pro Think Max | Performa maksimal |
| Peringkasan dokumen | V4-Flash Non-think | Beban kerja volume tinggi |
| Analisis dokumen mendalam | V4-Pro Think High | Akurasi pada konteks besar |
| Agen otonom | V4-Pro Think Max | Tugas multi-langkah yang kompleks |
Platform AI-native seperti Framia.pro mengimplementasikan routing cerdas di antara konfigurasi ini — mencocokkan kompleksitas tugas dengan varian dan mode V4 yang tepat untuk mengoptimalkan kualitas dan biaya dalam alur kerja kreatif.
Kesimpulan
DeepSeek V4 adalah seri model open-weight paling canggih yang tersedia per April 2026. Dengan 1,6 triliun parameter (V4-Pro), lisensi MIT, jendela konteks standar 1 juta token, tiga mode penalaran, kemampuan coding kelas frontier, dan harga 10–35 kali lebih rendah dari alternatif sumber tertutup, ini merupakan lompatan nyata dalam kemampuan AI yang dapat diakses secara luas.