Model Card DeepSeek V4: Referensi Teknis Lengkap untuk Developer

Model card lengkap DeepSeek V4: spesifikasi penuh, referensi API, harga, tabel benchmark, panduan deployment lokal, dan catatan teknis untuk V4-Pro dan V4-Flash.

by Framia

Model Card DeepSeek V4: Referensi Teknis Lengkap untuk Developer

Model card DeepSeek V4 merangkum semua informasi yang dibutuhkan developer untuk memahami dan men-deploy seri V4. Referensi ini mencakup spesifikasi teknis lengkap, metode akses, keterbatasan yang diketahui, dan panduan penggunaan untuk V4-Pro dan V4-Flash.


Identitas Model

Field DeepSeek-V4-Pro DeepSeek-V4-Flash
Model ID deepseek-v4-pro deepseek-v4-flash
Developer DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Tanggal Rilis 24 April 2026 (Pratinjau)
Lisensi MIT License
Tipe Model Transformer decoder-only, MoE
Arsitektur Hybrid Attention (CSA + HCA) + mHC
Total Parameter 1,6T 284B
Parameter Aktif 49B 13B
Panjang Konteks 1.000.000 token 1.000.000 token
Presisi FP4 + FP8 Campuran FP4 + FP8 Campuran
Ukuran Unduhan ~865 GB ~160 GB

Peta Repositori HuggingFace

Repositori Tipe URL
DeepSeek-V4-Pro Instruct (di-tune dengan RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base Base pre-trained huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash Instruct (di-tune dengan RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base Base pre-trained huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Referensi API

Endpoint

  • URL Dasar: https://api.deepseek.com/v1
  • Chat Completions: POST /chat/completions
  • Format yang kompatibel: OpenAI ChatCompletions API, Anthropic Messages API

Nama Model (API)

  • deepseek-v4-pro — Model flagship dengan kemampuan penuh
  • deepseek-v4-flash — Cepat dan hemat biaya

⚠️ Deprecated (dihentikan 24 Juli 2026): deepseek-chat, deepseek-reasoner

Harga

Model Input Output
deepseek-v4-flash $0,14 / 1 juta token $0,28 / 1 juta token
deepseek-v4-pro $1,74 / 1 juta token $3,48 / 1 juta token

Detail Arsitektur

Sistem Hybrid Attention

Tipe Layer Mekanisme Tujuan
Layer token terkini Attention standar Akurasi penuh untuk konteks terdekat
Layer token jarak menengah Compressed Sparse Attention (CSA) Akses efisien ke konteks jarak menengah
Layer token jarak jauh Heavily Compressed Attention (HCA) Representasi kompak untuk riwayat yang jauh

Efisiensi dibanding V3.2 pada konteks 1 juta token:

  • FLOPs: 27% dari V3.2 (penghematan 73%)
  • KV Cache: 10% dari V3.2 (penghematan 90%)

Inovasi Pelatihan

Inovasi Deskripsi
Optimizer Muon (menggantikan AdamW)
Koneksi residual mHC (Manifold-Constrained Hyper-Connections)
Data pre-training 32T+ token beragam
Post-training Tahap 1 Spesialisasi ahli melalui SFT + RL (GRPO)
Post-training Tahap 2 Konsolidasi terpadu melalui on-policy distillation

Mode Inferensi

Mode Parameter API Anggaran Berpikir Persyaratan Konteks
Tanpa berpikir "thinking": {"type": "disabled"} Tidak ada Standar
Berpikir Tinggi "thinking": {"type": "enabled", "budget_tokens": N} Ditentukan pengguna Standar
Berpikir Maksimal System prompt khusus + "thinking": {"type": "max"} Diperluas Disarankan 384K+ token

Parameter Sampling yang Direkomendasikan

{
  "temperature": 1.0,
  "top_p": 1.0
}

Referensi Benchmark

V4-Pro-Max vs Model Terdepan

Benchmark V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87,5% 89,1% 87,5% 91,0%
GPQA Diamond 90,1% 91,3% 93,0% 94,3%
HLE 37,7% 40,0% 39,8% 44,4%
LiveCodeBench 93,5% 88,8% N/A 91,7%
Codeforces 3206 N/A 3168 3052
SWE-bench Verified 80,6% 80,8% N/A 80,6%
SWE-bench Pro 55,4% 57,3% 57,7% 54,2%
Terminal Bench 2.0 67,9% 65,4% 75,1% 68,5%
MRCR 1M 83,5% 92,9% N/A 76,3%
CorpusQA 1M 62,0% 71,7% N/A 53,8%

Referensi Deployment Lokal

Konfigurasi Penyimpanan VRAM Setup GPU Minimal
V4-Flash (Penuh) 160 GB ~160 GB 2× H100 80GB
V4-Flash (Kuantisasi Q4) ~80 GB ~80 GB RTX 5090
V4-Pro (Penuh) 865 GB ~865 GB 16× H100 80GB
V4-Pro (Kuantisasi Q4) ~200–400 GB ~200–400 GB 4–8× H100 80GB

Template Chat

DeepSeek V4 tidak menggunakan template chat Jinja HuggingFace standar. Gunakan skrip encoding kustom di folder encoding/ pada setiap repositori.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Opsi: "no_think", "thinking", "max_thinking"

Keterbatasan yang Diketahui

  • Hanya teks saat peluncuran: Tidak ada pemahaman gambar, audio, atau video secara native di rilis pratinjau April 2026
  • Status pratinjau: Kemungkinan terdapat edge case; DeepSeek menyarankan untuk mengikuti akun resmi untuk pembaruan
  • Persyaratan konteks Think Max: Jendela konteks 384K+ token diperlukan untuk performa Think Max terbaik
  • Unduhan besar: V4-Pro sebesar 865 GB membutuhkan bandwidth dan penyimpanan yang signifikan untuk deployment lokal
  • Template chat: Encoding non-standar mengharuskan penggunaan skrip dari repositori, bukan alat pipeline HuggingFace standar

Kontak dan Dukungan

  • Twitter Resmi: @deepseek_ai
  • GitHub: github.com/deepseek-ai
  • HuggingFace: huggingface.co/deepseek-ai
  • Dokumentasi API: api-docs.deepseek.com
  • Email: service@deepseek.com
  • Web Chat: chat.deepseek.com

Bagi developer yang membangun di platform seperti Framia.pro yang mengintegrasikan kemampuan DeepSeek V4, model card ini menjadi referensi teknis otoritatif untuk semua keputusan integrasi.


Sitasi

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}