DeepSeek V4: Spesifikasi dan Kemampuan Lengkap Model AI (2026)

Panduan lengkap model AI DeepSeek V4: spesifikasi Pro dan Flash, arsitektur, tabel benchmark, harga, kompatibilitas API, dan rekomendasi penggunaan berdasarkan jenis tugas.

Detail Model AI DeepSeek V4: Spesifikasi Lengkap, Fitur, dan Kemampuan

Artikel ini merangkum setiap detail penting mengenai spesifikasi, fitur, dan kemampuan DeepSeek V4 ke dalam satu referensi komprehensif — panduan definitif bagi siapa saja yang mengevaluasi, mengintegrasikan, atau mempelajari seri V4.

Spesifikasi Inti

DeepSeek-V4-Pro

Spesifikasi	Detail
Arsitektur	Mixture of Experts (MoE) + Hybrid Attention (CSA + HCA) + mHC
Total Parameter	1,6 Triliun
Parameter Aktif (per token)	49 Miliar
Panjang Konteks	1.000.000 token (default)
Data Pra-pelatihan	32T+ token beragam
Lisensi	MIT
Tanggal Rilis	24 April 2026 (Pratinjau)
Presisi	FP4 (experts) + FP8 (bobot lainnya) campuran
Ukuran Unduhan	~865 GB
ID HuggingFace	deepseek-ai/DeepSeek-V4-Pro
Nama Model API	deepseek-v4-pro
Harga Input API	$1,74 per 1 juta token
Harga Output API	$3,48 per 1 juta token

DeepSeek-V4-Flash

Spesifikasi	Detail
Arsitektur	MoE + Hybrid Attention (CSA + HCA) + mHC
Total Parameter	284 Miliar
Parameter Aktif (per token)	13 Miliar
Panjang Konteks	1.000.000 token (default)
Data Pra-pelatihan	32T+ token beragam
Lisensi	MIT
Tanggal Rilis	24 April 2026 (Pratinjau)
Presisi	FP4 (experts) + FP8 (bobot lainnya) campuran
Ukuran Unduhan	~160 GB
ID HuggingFace	deepseek-ai/DeepSeek-V4-Flash
Nama Model API	deepseek-v4-flash
Harga Input API	$0,14 per 1 juta token
Harga Output API	$0,28 per 1 juta token

Pendalaman Arsitektur

Hybrid Attention: CSA + HCA

Inovasi mendasar dalam arsitektur V4 menggabungkan dua mekanisme attention yang saling melengkapi:

Compressed Sparse Attention (CSA): Menerapkan kompresi per-token pada pasangan kunci-nilai untuk konteks jarak menengah, mempertahankan akurasi sambil mengurangi kebutuhan memori dan komputasi.

Heavily Compressed Attention (HCA): Menerapkan kompresi agresif pada token yang sangat jauh, menyimpan representasi ringkasan yang kompak sehingga model dapat "mengingat" informasi di seluruh konteks satu juta token tanpa overhead attention penuh.

Efek gabungan pada konteks 1 juta token dibandingkan V3.2:

FLOPs inferensi: berkurang menjadi 27% dari V3.2
Memori KV Cache: berkurang menjadi 10% dari V3.2

Manifold-Constrained Hyper-Connections (mHC)

Menggantikan koneksi residual standar di seluruh jaringan. Dengan membatasi pembaruan bobot pada manifold Riemann, mHC memperkuat propagasi sinyal di ratusan lapisan transformer V4-Pro — memungkinkan pelatihan stabil pada 1,6 triliun parameter.

Optimizer Muon

Optimizer Muon (Momentum + Ortogonalisasi) menggantikan AdamW. Dengan mengortogonalisasi pembaruan gradien:

Menghilangkan redundansi antara langkah pembaruan berturut-turut
Mencapai konvergensi lebih cepat (pembelajaran lebih banyak per langkah pelatihan)
Memberikan stabilitas lebih besar pada skala pra-pelatihan 32T+ token

Tiga Mode Penalaran

Mode	Deskripsi	Konfigurasi API	Kebutuhan Konteks
Non-think	Respons langsung, tanpa chain-of-thought	`thinking: {type: "disabled"}`	Standar
Think High	Penalaran terstruktur dengan anggaran token	`thinking: {type: "enabled", budget_tokens: N}`	Standar
Think Max	Penalaran mendalam dan menyeluruh	System prompt khusus + `thinking: {type: "max"}`	384K+ token

Dampak performa (V4-Pro):

Benchmark	Non-Think	Think Max
LiveCodeBench	56,8%	93,5%
GPQA Diamond	72,9%	90,1%
Codeforces Rating	N/A	3206
HMMT 2026 Feb	31,7%	95,2%

Kemampuan Utama

Pemrograman

Rating Codeforces terbaik model terbuka: 3206
LiveCodeBench: 93,5% (Pass@1)
SWE-bench Verified: 80,6% (Terselesaikan)
SWE-bench Pro: 55,4% (Terselesaikan)
SWE-bench Multilingual: 76,2% (Terselesaikan)
Integrasi native dengan Claude Code, OpenClaw, OpenCode

Penalaran dan Pengetahuan

MMLU-Pro: 87,5% (Think Max)
GPQA Diamond: 90,1% (Think Max)
HLE: 37,7% (Think Max)
SimpleQA-Verified: 57,9% (Think Max)
MMMLU (multibahasa): 90,3% (basis)

Konteks Panjang

MRCR 1M (jarum dalam tumpukan jerami): 83,5% (Think Max) — mengalahkan Gemini-3.1-Pro
CorpusQA 1M: 62,0% (Think Max) — skor terbaik selain Claude
LongBench-V2 (basis): 51,5%

Tugas Agentik

Terminal Bench 2.0: 67,9% (Think Max)
SWE-bench Verified: 80,6%
MCPAtlas Public: 73,6% (Think Max) — skor terbuka terbaik
BrowseComp: 83,4% (Think Max)
Toolathlon: 51,8% (Think Max)

Kompatibilitas API

Format API	Dukungan
OpenAI ChatCompletions	✅ Kompatibilitas penuh
Anthropic Messages API	✅ Kompatibilitas penuh
Pemanggilan Alat/Fungsi	✅ Didukung
Streaming	✅ Didukung
Konten Berpikir (`reasoning_content`)	✅ Tersedia di mode Think High/Max

Varian Model yang Tersedia

Model	Tipe	Tersedia Di
DeepSeek-V4-Pro	Instruct (dioptimalkan untuk chat)	HuggingFace, ModelScope, API
DeepSeek-V4-Pro-Base	Basis pra-pelatihan	HuggingFace, ModelScope
DeepSeek-V4-Flash	Instruct (dioptimalkan untuk chat)	HuggingFace, ModelScope, API
DeepSeek-V4-Flash-Base	Basis pra-pelatihan	HuggingFace, ModelScope

Integrasi Agentik

DeepSeek V4 terintegrasi secara native dengan:

Claude Code — asisten coding AI terkemuka
OpenClaw — framework multi-agen open source
OpenCode — sistem coding otonom open source

Model ini sudah menggerakkan infrastruktur coding agentik internal DeepSeek sendiri.

Metode Akses

Web: chat.deepseek.com (Mode Instan = Flash; Mode Pakar = Pro)
API: api.deepseek.com/v1 — perbarui model ke deepseek-v4-pro atau deepseek-v4-flash
HuggingFace: Unduh bobot untuk penerapan lokal
ModelScope: Unduhan alternatif untuk akses lebih cepat di Tiongkok
Penyedia inferensi pihak ketiga: Berbagai penyedia termasuk Novita menawarkan akses API V4

Migrasi Model Lama

Nama Model Lama	Sekarang Diarahkan Ke	Pensiun
deepseek-chat	deepseek-v4-flash (non-thinking)	24 Juli 2026
deepseek-reasoner	deepseek-v4-flash (thinking)	24 Juli 2026

Rekomendasi Penggunaan Berdasarkan Jenis Tugas

Tugas	Konfigurasi yang Direkomendasikan	Alasan
Chat dan tanya jawab	V4-Flash Non-think	Cepat dan hemat biaya
Penyelesaian kode	V4-Flash Non-think	Kecepatan sangat penting
Desain algoritma kompleks	V4-Pro Think High	Keseimbangan akurasi/kecepatan
Pemrograman kompetitif	V4-Pro Think Max	Performa maksimal
Peringkasan dokumen	V4-Flash Non-think	Beban kerja volume tinggi
Analisis dokumen mendalam	V4-Pro Think High	Akurasi pada konteks besar
Agen otonom	V4-Pro Think Max	Tugas multi-langkah yang kompleks

Platform AI-native seperti Framia.pro mengimplementasikan routing cerdas di antara konfigurasi ini — mencocokkan kompleksitas tugas dengan varian dan mode V4 yang tepat untuk mengoptimalkan kualitas dan biaya dalam alur kerja kreatif.

Kesimpulan

DeepSeek V4 adalah seri model open-weight paling canggih yang tersedia per April 2026. Dengan 1,6 triliun parameter (V4-Pro), lisensi MIT, jendela konteks standar 1 juta token, tiga mode penalaran, kemampuan coding kelas frontier, dan harga 10–35 kali lebih rendah dari alternatif sumber tertutup, ini merupakan lompatan nyata dalam kemampuan AI yang dapat diakses secara luas.