Cara Menjalankan DeepSeek V4 Secara Lokal: Panduan Lengkap (2026)

Pelajari cara menjalankan DeepSeek V4-Flash dan V4-Pro secara lokal. Meliputi persyaratan hardware, langkah unduhan, setup inferensi, opsi kuantisasi, dan benchmark performa.

Cara Menjalankan DeepSeek V4 Secara Lokal: Persyaratan Hardware dan Panduan Setup

Menjalankan DeepSeek V4 secara lokal memberi Anda privasi penuh, tanpa biaya API per token, dan kendali penuh atas pengaturan inferensi. Baik V4-Pro maupun V4-Flash adalah model open-weight berlisensi MIT yang tersedia untuk diunduh gratis dari HuggingFace. Berikut semua yang perlu Anda ketahui untuk menjalankannya di hardware Anda sendiri.

Lokal atau API: Mana yang Lebih Baik untuk Anda?

Sebelum memulai setup, pertimbangkan kebutuhan Anda:

Faktor	Deployment Lokal	API
Biaya (volume tinggi)	✅ Lebih rendah (hardware teramortisasi)	❌ Biaya per token
Privasi	✅ Penuh	❌ Data dikirim ke DeepSeek
Kompleksitas setup	❌ Tinggi	✅ Nol
Latensi	✅ Tanpa round-trip jaringan	❌ Bergantung jaringan
Hardware yang dibutuhkan	❌ Signifikan	✅ Tidak ada
Versi model terbaru	❌ Update manual	✅ Otomatis

Deployment lokal paling cocok untuk: persyaratan privasi enterprise, produksi volume tinggi di mana biaya GPU teramortisasi di bawah harga API, dan workflow riset/fine-tuning.

Persyaratan Hardware

DeepSeek-V4-Flash (284B / 13B aktif)

Presisi penuh (FP8 + FP4 campuran):

Ukuran unduhan: ~160 GB
VRAM yang dibutuhkan: ~160 GB
GPU yang direkomendasikan: 2× NVIDIA H100 80GB, atau 2× H200, atau 4× A100 40GB

Terkuantisasi (GGUF/GPTQ komunitas):

Ukuran: ~80 GB (kuantisasi 4-bit)
VRAM yang dibutuhkan: ~80 GB
Bisa dijalankan di: 1× NVIDIA RTX 5090, atau 2× RTX 4090 (masing-masing 24GB = 48GB — tidak cukup sendiri, perlu CPU offload)
Dengan CPU offload: RTX 5090 + RAM sistem 64 GB+

DeepSeek-V4-Pro (1,6T / 49B aktif)

Presisi penuh (FP8 + FP4 campuran):

Ukuran unduhan: ~865 GB
VRAM yang dibutuhkan: ~865 GB
Cluster yang direkomendasikan: 16× NVIDIA H100 80GB, atau setara
Minimum yang layak: 12× H100 80GB dengan serving yang dioptimalkan

Terkuantisasi (build komunitas):

Ukuran: ~200–400 GB (kuantisasi 4-bit atau 8-bit)
VRAM yang dibutuhkan: ~200–400 GB
Bisa dijalankan di: 4–8× H100 80GB, atau 8–16× A100 40GB

Penilaian jujur: Deployment lokal V4-Pro hanya praktis untuk organisasi dengan infrastruktur GPU yang signifikan. V4-Flash adalah pilihan yang dapat diakses oleh individu dan tim kecil.

Langkah 1: Unduh Bobot Model

Menggunakan HuggingFace CLI (Direkomendasikan)

# Instal CLI
pip install huggingface_hub

# Unduh model V4-Flash instruct (~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# Unduh V4-Flash Base (opsional, untuk fine-tuning)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

Flag --resume-download sangat penting untuk unduhan besar seperti ini — memungkinkan Anda melanjutkan unduhan yang terputus tanpa kehilangan progres.

Dari ModelScope (Lebih cepat di China)

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

Langkah 2: Siapkan Lingkungan Inferensi

DeepSeek V4 memerlukan skrip encoding khusus untuk template chat. Clone alat inferensi model:

# Clone hanya folder inferensi dari repositori
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

Instal dependensi:

pip install transformers torch accelerate

Langkah 3: Jalankan Inferensi Dasar

Gunakan skrip encoding yang disediakan:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# Muat tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# Muat model (dengan pemetaan perangkat otomatis untuk multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # Mendistribusikan ke GPU yang tersedia
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# Encode percakapan
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# Mode non-thinking
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# Generate
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

Langkah 4: Kuantisasi Komunitas (llama.cpp / Ollama)

Jika hardware Anda terbatas, kuantisasi dari komunitas dapat mengurangi kebutuhan secara drastis:

Menggunakan Ollama (Termudah)

# Instal Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Tarik V4-Flash yang dikuantisasi komunitas (periksa pustaka Ollama untuk versi yang tersedia)
ollama pull deepseek-v4-flash:q4_k_m

# Jalankan
ollama run deepseek-v4-flash:q4_k_m

Menggunakan llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# Unduh V4-Flash GGUF terkuantisasi dari repositori komunitas HuggingFace
# Lalu jalankan:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

Parameter Sampling yang Direkomendasikan

DeepSeek secara resmi merekomendasikan:

temperature = 1.0
top_p = 1.0

Untuk mode Think Max, pastikan ukuran jendela konteks diatur minimal 384K token.

Ekspektasi Performa

Hardware	Model	Throughput (perkiraan)
2× H100 80GB	V4-Flash	~40–80 token/detik
4× A100 40GB	V4-Flash	~20–40 token/detik
8× H100 80GB	V4-Flash	~100–150 token/detik
16× H100 80GB	V4-Pro	~15–30 token/detik
RTX 5090 (terkuantisasi)	V4-Flash Q4	~5–15 token/detik

Ini adalah perkiraan kasar — throughput aktual bergantung pada panjang konteks, ukuran batch, dan optimasi framework.

Manfaat Privasi untuk Enterprise

Bagi perusahaan dengan data sensitif — rekam medis, dokumen hukum, data keuangan — deployment lokal DeepSeek V4 berarti tidak ada data yang keluar dari infrastruktur Anda. Tidak seperti layanan berbasis API, tidak ada penyimpanan data, tidak ada pencatatan di server pihak ketiga, dan tidak ada kekhawatiran kepatuhan terkait pengiriman informasi proprietary ke API eksternal.

Ini sangat relevan untuk platform seperti Framia.pro dengan pelanggan enterprise yang membutuhkan alat kreatif berbasis AI tanpa kekhawatiran kedaulatan data.

Kesimpulan

Menjalankan DeepSeek V4-Flash secara lokal sangat layak dengan setup dual-H100 atau hardware terkuantisasi kelas atas. V4-Pro membutuhkan infrastruktur GPU yang signifikan namun memberikan kemampuan open-source yang tak tertandingi. Lisensi MIT berarti Anda sepenuhnya memiliki deployment tersebut — keunggulan utama untuk kasus penggunaan yang sensitif terhadap privasi dan volume tinggi.