Model card lengkap DeepSeek V4: spesifikasi penuh, referensi API, harga, tabel benchmark, panduan deployment lokal, dan catatan teknis untuk V4-Pro dan V4-Flash.
Model Card DeepSeek V4: Referensi Teknis Lengkap untuk Developer
Model card DeepSeek V4 merangkum semua informasi yang dibutuhkan developer untuk memahami dan men-deploy seri V4. Referensi ini mencakup spesifikasi teknis lengkap, metode akses, keterbatasan yang diketahui, dan panduan penggunaan untuk V4-Pro dan V4-Flash.
Identitas Model
| Field |
DeepSeek-V4-Pro |
DeepSeek-V4-Flash |
| Model ID |
deepseek-v4-pro |
deepseek-v4-flash |
| Developer |
DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.) |
|
| Tanggal Rilis |
24 April 2026 (Pratinjau) |
|
| Lisensi |
MIT License |
|
| Tipe Model |
Transformer decoder-only, MoE |
|
| Arsitektur |
Hybrid Attention (CSA + HCA) + mHC |
|
| Total Parameter |
1,6T |
284B |
| Parameter Aktif |
49B |
13B |
| Panjang Konteks |
1.000.000 token |
1.000.000 token |
| Presisi |
FP4 + FP8 Campuran |
FP4 + FP8 Campuran |
| Ukuran Unduhan |
~865 GB |
~160 GB |
Peta Repositori HuggingFace
| Repositori |
Tipe |
URL |
| DeepSeek-V4-Pro |
Instruct (di-tune dengan RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro |
| DeepSeek-V4-Pro-Base |
Base pre-trained |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base |
| DeepSeek-V4-Flash |
Instruct (di-tune dengan RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash |
| DeepSeek-V4-Flash-Base |
Base pre-trained |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base |
Referensi API
Endpoint
- URL Dasar:
https://api.deepseek.com/v1
- Chat Completions:
POST /chat/completions
- Format yang kompatibel: OpenAI ChatCompletions API, Anthropic Messages API
Nama Model (API)
deepseek-v4-pro — Model flagship dengan kemampuan penuh
deepseek-v4-flash — Cepat dan hemat biaya
⚠️ Deprecated (dihentikan 24 Juli 2026): deepseek-chat, deepseek-reasoner
Harga
| Model |
Input |
Output |
| deepseek-v4-flash |
$0,14 / 1 juta token |
$0,28 / 1 juta token |
| deepseek-v4-pro |
$1,74 / 1 juta token |
$3,48 / 1 juta token |
Detail Arsitektur
Sistem Hybrid Attention
| Tipe Layer |
Mekanisme |
Tujuan |
| Layer token terkini |
Attention standar |
Akurasi penuh untuk konteks terdekat |
| Layer token jarak menengah |
Compressed Sparse Attention (CSA) |
Akses efisien ke konteks jarak menengah |
| Layer token jarak jauh |
Heavily Compressed Attention (HCA) |
Representasi kompak untuk riwayat yang jauh |
Efisiensi dibanding V3.2 pada konteks 1 juta token:
- FLOPs: 27% dari V3.2 (penghematan 73%)
- KV Cache: 10% dari V3.2 (penghematan 90%)
Inovasi Pelatihan
| Inovasi |
Deskripsi |
| Optimizer |
Muon (menggantikan AdamW) |
| Koneksi residual |
mHC (Manifold-Constrained Hyper-Connections) |
| Data pre-training |
32T+ token beragam |
| Post-training Tahap 1 |
Spesialisasi ahli melalui SFT + RL (GRPO) |
| Post-training Tahap 2 |
Konsolidasi terpadu melalui on-policy distillation |
Mode Inferensi
| Mode |
Parameter API |
Anggaran Berpikir |
Persyaratan Konteks |
| Tanpa berpikir |
"thinking": {"type": "disabled"} |
Tidak ada |
Standar |
| Berpikir Tinggi |
"thinking": {"type": "enabled", "budget_tokens": N} |
Ditentukan pengguna |
Standar |
| Berpikir Maksimal |
System prompt khusus + "thinking": {"type": "max"} |
Diperluas |
Disarankan 384K+ token |
Parameter Sampling yang Direkomendasikan
{
"temperature": 1.0,
"top_p": 1.0
}
Referensi Benchmark
V4-Pro-Max vs Model Terdepan
| Benchmark |
V4-Pro Max |
Opus 4.6 Max |
GPT-5.4 xHigh |
Gemini-3.1-Pro High |
| MMLU-Pro |
87,5% |
89,1% |
87,5% |
91,0% |
| GPQA Diamond |
90,1% |
91,3% |
93,0% |
94,3% |
| HLE |
37,7% |
40,0% |
39,8% |
44,4% |
| LiveCodeBench |
93,5% |
88,8% |
N/A |
91,7% |
| Codeforces |
3206 |
N/A |
3168 |
3052 |
| SWE-bench Verified |
80,6% |
80,8% |
N/A |
80,6% |
| SWE-bench Pro |
55,4% |
57,3% |
57,7% |
54,2% |
| Terminal Bench 2.0 |
67,9% |
65,4% |
75,1% |
68,5% |
| MRCR 1M |
83,5% |
92,9% |
N/A |
76,3% |
| CorpusQA 1M |
62,0% |
71,7% |
N/A |
53,8% |
Referensi Deployment Lokal
| Konfigurasi |
Penyimpanan |
VRAM |
Setup GPU Minimal |
| V4-Flash (Penuh) |
160 GB |
~160 GB |
2× H100 80GB |
| V4-Flash (Kuantisasi Q4) |
~80 GB |
~80 GB |
RTX 5090 |
| V4-Pro (Penuh) |
865 GB |
~865 GB |
16× H100 80GB |
| V4-Pro (Kuantisasi Q4) |
~200–400 GB |
~200–400 GB |
4–8× H100 80GB |
Template Chat
DeepSeek V4 tidak menggunakan template chat Jinja HuggingFace standar. Gunakan skrip encoding kustom di folder encoding/ pada setiap repositori.
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
prompt = encode_messages(messages, thinking_mode="no_think")
# Opsi: "no_think", "thinking", "max_thinking"
Keterbatasan yang Diketahui
- Hanya teks saat peluncuran: Tidak ada pemahaman gambar, audio, atau video secara native di rilis pratinjau April 2026
- Status pratinjau: Kemungkinan terdapat edge case; DeepSeek menyarankan untuk mengikuti akun resmi untuk pembaruan
- Persyaratan konteks Think Max: Jendela konteks 384K+ token diperlukan untuk performa Think Max terbaik
- Unduhan besar: V4-Pro sebesar 865 GB membutuhkan bandwidth dan penyimpanan yang signifikan untuk deployment lokal
- Template chat: Encoding non-standar mengharuskan penggunaan skrip dari repositori, bukan alat pipeline HuggingFace standar
Kontak dan Dukungan
- Twitter Resmi: @deepseek_ai
- GitHub: github.com/deepseek-ai
- HuggingFace: huggingface.co/deepseek-ai
- Dokumentasi API: api-docs.deepseek.com
- Email: service@deepseek.com
- Web Chat: chat.deepseek.com
Bagi developer yang membangun di platform seperti Framia.pro yang mengintegrasikan kemampuan DeepSeek V4, model card ini menjadi referensi teknis otoritatif untuk semua keputusan integrasi.
Sitasi
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}