Cara Menjalankan DeepSeek V4 Secara Lokal: Persyaratan Hardware dan Panduan Setup
Menjalankan DeepSeek V4 secara lokal memberi Anda privasi penuh, tanpa biaya API per token, dan kendali penuh atas pengaturan inferensi. Baik V4-Pro maupun V4-Flash adalah model open-weight berlisensi MIT yang tersedia untuk diunduh gratis dari HuggingFace. Berikut semua yang perlu Anda ketahui untuk menjalankannya di hardware Anda sendiri.
Lokal atau API: Mana yang Lebih Baik untuk Anda?
Sebelum memulai setup, pertimbangkan kebutuhan Anda:
| Faktor | Deployment Lokal | API |
|---|---|---|
| Biaya (volume tinggi) | ✅ Lebih rendah (hardware teramortisasi) | ❌ Biaya per token |
| Privasi | ✅ Penuh | ❌ Data dikirim ke DeepSeek |
| Kompleksitas setup | ❌ Tinggi | ✅ Nol |
| Latensi | ✅ Tanpa round-trip jaringan | ❌ Bergantung jaringan |
| Hardware yang dibutuhkan | ❌ Signifikan | ✅ Tidak ada |
| Versi model terbaru | ❌ Update manual | ✅ Otomatis |
Deployment lokal paling cocok untuk: persyaratan privasi enterprise, produksi volume tinggi di mana biaya GPU teramortisasi di bawah harga API, dan workflow riset/fine-tuning.
Persyaratan Hardware
DeepSeek-V4-Flash (284B / 13B aktif)
Presisi penuh (FP8 + FP4 campuran):
- Ukuran unduhan: ~160 GB
- VRAM yang dibutuhkan: ~160 GB
- GPU yang direkomendasikan: 2× NVIDIA H100 80GB, atau 2× H200, atau 4× A100 40GB
Terkuantisasi (GGUF/GPTQ komunitas):
- Ukuran: ~80 GB (kuantisasi 4-bit)
- VRAM yang dibutuhkan: ~80 GB
- Bisa dijalankan di: 1× NVIDIA RTX 5090, atau 2× RTX 4090 (masing-masing 24GB = 48GB — tidak cukup sendiri, perlu CPU offload)
- Dengan CPU offload: RTX 5090 + RAM sistem 64 GB+
DeepSeek-V4-Pro (1,6T / 49B aktif)
Presisi penuh (FP8 + FP4 campuran):
- Ukuran unduhan: ~865 GB
- VRAM yang dibutuhkan: ~865 GB
- Cluster yang direkomendasikan: 16× NVIDIA H100 80GB, atau setara
- Minimum yang layak: 12× H100 80GB dengan serving yang dioptimalkan
Terkuantisasi (build komunitas):
- Ukuran: ~200–400 GB (kuantisasi 4-bit atau 8-bit)
- VRAM yang dibutuhkan: ~200–400 GB
- Bisa dijalankan di: 4–8× H100 80GB, atau 8–16× A100 40GB
Penilaian jujur: Deployment lokal V4-Pro hanya praktis untuk organisasi dengan infrastruktur GPU yang signifikan. V4-Flash adalah pilihan yang dapat diakses oleh individu dan tim kecil.
Langkah 1: Unduh Bobot Model
Menggunakan HuggingFace CLI (Direkomendasikan)
# Instal CLI
pip install huggingface_hub
# Unduh model V4-Flash instruct (~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/DeepSeek-V4-Flash \
--resume-download
# Unduh V4-Flash Base (opsional, untuk fine-tuning)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
--local-dir ./models/DeepSeek-V4-Flash-Base \
--resume-download
Flag --resume-download sangat penting untuk unduhan besar seperti ini — memungkinkan Anda melanjutkan unduhan yang terputus tanpa kehilangan progres.
Dari ModelScope (Lebih cepat di China)
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash
Langkah 2: Siapkan Lingkungan Inferensi
DeepSeek V4 memerlukan skrip encoding khusus untuk template chat. Clone alat inferensi model:
# Clone hanya folder inferensi dari repositori
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo
Instal dependensi:
pip install transformers torch accelerate
Langkah 3: Jalankan Inferensi Dasar
Gunakan skrip encoding yang disediakan:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch
model_path = "./models/DeepSeek-V4-Flash"
# Muat tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)
# Muat model (dengan pemetaan perangkat otomatis untuk multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto", # Mendistribusikan ke GPU yang tersedia
torch_dtype=torch.float8_e4m3fn,
trust_remote_code=True
)
# Encode percakapan
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to reverse a linked list."}
]
# Mode non-thinking
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
# Generate
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=2048,
temperature=1.0,
top_p=1.0,
do_sample=True
)
response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))
Langkah 4: Kuantisasi Komunitas (llama.cpp / Ollama)
Jika hardware Anda terbatas, kuantisasi dari komunitas dapat mengurangi kebutuhan secara drastis:
Menggunakan Ollama (Termudah)
# Instal Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# Tarik V4-Flash yang dikuantisasi komunitas (periksa pustaka Ollama untuk versi yang tersedia)
ollama pull deepseek-v4-flash:q4_k_m
# Jalankan
ollama run deepseek-v4-flash:q4_k_m
Menggunakan llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8
# Unduh V4-Flash GGUF terkuantisasi dari repositori komunitas HuggingFace
# Lalu jalankan:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
-n 2048 \
--ctx-size 8192 \
-p "You are a helpful assistant."
Parameter Sampling yang Direkomendasikan
DeepSeek secara resmi merekomendasikan:
temperature = 1.0
top_p = 1.0
Untuk mode Think Max, pastikan ukuran jendela konteks diatur minimal 384K token.
Ekspektasi Performa
| Hardware | Model | Throughput (perkiraan) |
|---|---|---|
| 2× H100 80GB | V4-Flash | ~40–80 token/detik |
| 4× A100 40GB | V4-Flash | ~20–40 token/detik |
| 8× H100 80GB | V4-Flash | ~100–150 token/detik |
| 16× H100 80GB | V4-Pro | ~15–30 token/detik |
| RTX 5090 (terkuantisasi) | V4-Flash Q4 | ~5–15 token/detik |
Ini adalah perkiraan kasar — throughput aktual bergantung pada panjang konteks, ukuran batch, dan optimasi framework.
Manfaat Privasi untuk Enterprise
Bagi perusahaan dengan data sensitif — rekam medis, dokumen hukum, data keuangan — deployment lokal DeepSeek V4 berarti tidak ada data yang keluar dari infrastruktur Anda. Tidak seperti layanan berbasis API, tidak ada penyimpanan data, tidak ada pencatatan di server pihak ketiga, dan tidak ada kekhawatiran kepatuhan terkait pengiriman informasi proprietary ke API eksternal.
Ini sangat relevan untuk platform seperti Framia.pro dengan pelanggan enterprise yang membutuhkan alat kreatif berbasis AI tanpa kekhawatiran kedaulatan data.
Kesimpulan
Menjalankan DeepSeek V4-Flash secara lokal sangat layak dengan setup dual-H100 atau hardware terkuantisasi kelas atas. V4-Pro membutuhkan infrastruktur GPU yang signifikan namun memberikan kemampuan open-source yang tak tertandingi. Lisensi MIT berarti Anda sepenuhnya memiliki deployment tersebut — keunggulan utama untuk kasus penggunaan yang sensitif terhadap privasi dan volume tinggi.