Model Card DeepSeek V4: Spesifikasi Teknis Lengkap (2026)

Model card lengkap DeepSeek V4: spesifikasi penuh, referensi API, harga, tabel benchmark, panduan deployment lokal, dan catatan teknis untuk V4-Pro dan V4-Flash.

Model Card DeepSeek V4: Referensi Teknis Lengkap untuk Developer

Model card DeepSeek V4 merangkum semua informasi yang dibutuhkan developer untuk memahami dan men-deploy seri V4. Referensi ini mencakup spesifikasi teknis lengkap, metode akses, keterbatasan yang diketahui, dan panduan penggunaan untuk V4-Pro dan V4-Flash.

Identitas Model

Field	DeepSeek-V4-Pro	DeepSeek-V4-Flash
Model ID	`deepseek-v4-pro`	`deepseek-v4-flash`
Developer	DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Tanggal Rilis	24 April 2026 (Pratinjau)
Lisensi	MIT License
Tipe Model	Transformer decoder-only, MoE
Arsitektur	Hybrid Attention (CSA + HCA) + mHC
Total Parameter	1,6T	284B
Parameter Aktif	49B	13B
Panjang Konteks	1.000.000 token	1.000.000 token
Presisi	FP4 + FP8 Campuran	FP4 + FP8 Campuran
Ukuran Unduhan	~865 GB	~160 GB

Peta Repositori HuggingFace

Repositori	Tipe	URL
DeepSeek-V4-Pro	Instruct (di-tune dengan RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	Base pre-trained	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	Instruct (di-tune dengan RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	Base pre-trained	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Referensi API

Endpoint

URL Dasar: https://api.deepseek.com/v1
Chat Completions: POST /chat/completions
Format yang kompatibel: OpenAI ChatCompletions API, Anthropic Messages API

Nama Model (API)

deepseek-v4-pro — Model flagship dengan kemampuan penuh
deepseek-v4-flash — Cepat dan hemat biaya

⚠️ Deprecated (dihentikan 24 Juli 2026): deepseek-chat, deepseek-reasoner

Harga

Model	Input	Output
deepseek-v4-flash	$0,14 / 1 juta token	$0,28 / 1 juta token
deepseek-v4-pro	$1,74 / 1 juta token	$3,48 / 1 juta token

Detail Arsitektur

Sistem Hybrid Attention

Tipe Layer	Mekanisme	Tujuan
Layer token terkini	Attention standar	Akurasi penuh untuk konteks terdekat
Layer token jarak menengah	Compressed Sparse Attention (CSA)	Akses efisien ke konteks jarak menengah
Layer token jarak jauh	Heavily Compressed Attention (HCA)	Representasi kompak untuk riwayat yang jauh

Efisiensi dibanding V3.2 pada konteks 1 juta token:

FLOPs: 27% dari V3.2 (penghematan 73%)
KV Cache: 10% dari V3.2 (penghematan 90%)

Inovasi Pelatihan

Inovasi	Deskripsi
Optimizer	Muon (menggantikan AdamW)
Koneksi residual	mHC (Manifold-Constrained Hyper-Connections)
Data pre-training	32T+ token beragam
Post-training Tahap 1	Spesialisasi ahli melalui SFT + RL (GRPO)
Post-training Tahap 2	Konsolidasi terpadu melalui on-policy distillation

Mode Inferensi

Mode	Parameter API	Anggaran Berpikir	Persyaratan Konteks
Tanpa berpikir	`"thinking": {"type": "disabled"}`	Tidak ada	Standar
Berpikir Tinggi	`"thinking": {"type": "enabled", "budget_tokens": N}`	Ditentukan pengguna	Standar
Berpikir Maksimal	System prompt khusus + `"thinking": {"type": "max"}`	Diperluas	Disarankan 384K+ token

Parameter Sampling yang Direkomendasikan

{
  "temperature": 1.0,
  "top_p": 1.0
}

Referensi Benchmark

V4-Pro-Max vs Model Terdepan

Benchmark	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87,5%	89,1%	87,5%	91,0%
GPQA Diamond	90,1%	91,3%	93,0%	94,3%
HLE	37,7%	40,0%	39,8%	44,4%
LiveCodeBench	93,5%	88,8%	N/A	91,7%
Codeforces	3206	N/A	3168	3052
SWE-bench Verified	80,6%	80,8%	N/A	80,6%
SWE-bench Pro	55,4%	57,3%	57,7%	54,2%
Terminal Bench 2.0	67,9%	65,4%	75,1%	68,5%
MRCR 1M	83,5%	92,9%	N/A	76,3%
CorpusQA 1M	62,0%	71,7%	N/A	53,8%

Referensi Deployment Lokal

Konfigurasi	Penyimpanan	VRAM	Setup GPU Minimal
V4-Flash (Penuh)	160 GB	~160 GB	2× H100 80GB
V4-Flash (Kuantisasi Q4)	~80 GB	~80 GB	RTX 5090
V4-Pro (Penuh)	865 GB	~865 GB	16× H100 80GB
V4-Pro (Kuantisasi Q4)	~200–400 GB	~200–400 GB	4–8× H100 80GB

Template Chat

DeepSeek V4 tidak menggunakan template chat Jinja HuggingFace standar. Gunakan skrip encoding kustom di folder encoding/ pada setiap repositori.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Opsi: "no_think", "thinking", "max_thinking"

Keterbatasan yang Diketahui

Hanya teks saat peluncuran: Tidak ada pemahaman gambar, audio, atau video secara native di rilis pratinjau April 2026
Status pratinjau: Kemungkinan terdapat edge case; DeepSeek menyarankan untuk mengikuti akun resmi untuk pembaruan
Persyaratan konteks Think Max: Jendela konteks 384K+ token diperlukan untuk performa Think Max terbaik
Unduhan besar: V4-Pro sebesar 865 GB membutuhkan bandwidth dan penyimpanan yang signifikan untuk deployment lokal
Template chat: Encoding non-standar mengharuskan penggunaan skrip dari repositori, bukan alat pipeline HuggingFace standar

Kontak dan Dukungan

Twitter Resmi: @deepseek_ai
GitHub: github.com/deepseek-ai
HuggingFace: huggingface.co/deepseek-ai
Dokumentasi API: api-docs.deepseek.com
Email: service@deepseek.com
Web Chat: chat.deepseek.com

Bagi developer yang membangun di platform seperti Framia.pro yang mengintegrasikan kemampuan DeepSeek V4, model card ini menjadi referensi teknis otoritatif untuk semua keputusan integrasi.

Sitasi

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}