DeepSeek V4 lokal betreiben: Hardwareanforderungen und Setup-Anleitung
DeepSeek V4 lokal auszuführen bietet vollständigen Datenschutz, keine tokenbasierten API-Kosten und vollständige Kontrolle über die Inferenzeinstellungen. Sowohl V4-Pro als auch V4-Flash sind MIT-lizenzierte Open-Weight-Modelle, die kostenlos von HuggingFace heruntergeladen werden können. Hier ist alles, was Sie wissen müssen, um sie auf Ihrer eigenen Hardware zu betreiben.
Lokale Bereitstellung oder API – was ist sinnvoller?
Bevor Sie mit dem Setup beginnen, sollten Sie Ihren Anwendungsfall berücksichtigen:
| Faktor | Lokale Bereitstellung | API |
|---|---|---|
| Kosten (hohes Volumen) | ✅ Geringer (Hardware amortisiert) | ❌ Tokenbasierte Gebühren |
| Datenschutz | ✅ Vollständig | ❌ Daten werden an DeepSeek gesendet |
| Setup-Komplexität | ❌ Hoch | ✅ Keine |
| Latenz | ✅ Kein Netzwerk-Roundtrip | ❌ Netzwerkabhängig |
| Benötigte Hardware | ❌ Erheblich | ✅ Keine |
| Neueste Modellversionen | ❌ Manuelle Updates | ✅ Automatisch |
Lokale Bereitstellung eignet sich am besten für: Datenschutzanforderungen im Unternehmensbereich, hochvolumige Produktion, bei der GPU-Kosten unter API-Preise amortisiert werden, sowie Forschungs- und Fine-Tuning-Workflows.
Hardwareanforderungen
DeepSeek-V4-Flash (284B / 13B aktiv)
Volle Präzision (FP8 + FP4 gemischt):
- Download-Größe: ~160 GB
- Benötigter VRAM: ~160 GB
- Empfohlene GPU: 2× NVIDIA H100 80GB, oder 2× H200, oder 4× A100 40GB
Quantisiert (Community GGUF/GPTQ):
- Größe: ~80 GB (4-Bit quantisiert)
- Benötigter VRAM: ~80 GB
- Möglich auf: 1× NVIDIA RTX 5090, oder 2× RTX 4090 (je 24 GB = 48 GB — allein nicht ausreichend, CPU-Offload erforderlich)
- Mit CPU-Offload: RTX 5090 + 64 GB+ Systemarbeitsspeicher
DeepSeek-V4-Pro (1,6T / 49B aktiv)
Volle Präzision (FP8 + FP4 gemischt):
- Download-Größe: ~865 GB
- Benötigter VRAM: ~865 GB
- Empfohlenes Cluster: 16× NVIDIA H100 80GB oder gleichwertig
- Minimum: 12× H100 80GB mit optimiertem Serving
Quantisiert (Community-Builds):
- Größe: ~200–400 GB (4-Bit oder 8-Bit quantisiert)
- Benötigter VRAM: ~200–400 GB
- Möglich auf: 4–8× H100 80GB oder 8–16× A100 40GB
Ehrliche Einschätzung: Die lokale Bereitstellung von V4-Pro ist nur für Organisationen mit erheblicher GPU-Infrastruktur praktikabel. V4-Flash ist die zugängliche Option für Einzelpersonen und kleine Teams.
Schritt 1: Modellgewichte herunterladen
Mit HuggingFace CLI (Empfohlen)
# CLI installieren
pip install huggingface_hub
# V4-Flash Instruct-Modell herunterladen (~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/DeepSeek-V4-Flash \
--resume-download
# V4-Flash Base herunterladen (optional, für Fine-Tuning)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
--local-dir ./models/DeepSeek-V4-Flash-Base \
--resume-download
Das Flag --resume-download ist bei diesen großen Downloads entscheidend — es ermöglicht das Fortsetzen unterbrochener Downloads ohne Datenverlust.
Von ModelScope (schneller in China)
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash
Schritt 2: Inferenzumgebung einrichten
DeepSeek V4 benötigt benutzerdefinierte Encoding-Skripte für das Chat-Template. Klonen Sie die Inferenz-Tools des Modells:
# Nur den Inferenzordner aus dem Repository klonen
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo
Abhängigkeiten installieren:
pip install transformers torch accelerate
Schritt 3: Grundlegende Inferenz ausführen
Verwenden Sie die bereitgestellten Encoding-Skripte:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch
model_path = "./models/DeepSeek-V4-Flash"
# Tokenizer laden
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)
# Modell laden (mit automatischem Geräte-Mapping für Multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto", # Verteilt auf verfügbare GPUs
torch_dtype=torch.float8_e4m3fn,
trust_remote_code=True
)
# Konversation enkodieren
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to reverse a linked list."}
]
# Nicht-Denk-Modus
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
# Generieren
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=2048,
temperature=1.0,
top_p=1.0,
do_sample=True
)
response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))
Schritt 4: Community-Quantisierungen verwenden (llama.cpp / Ollama)
Bei begrenzter Hardware reduzieren Community-Quantisierungen die Anforderungen drastisch:
Mit Ollama (Am einfachsten)
# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh
# Community-quantisiertes V4-Flash laden (verfügbare Versionen in der Ollama-Bibliothek prüfen)
ollama pull deepseek-v4-flash:q4_k_m
# Ausführen
ollama run deepseek-v4-flash:q4_k_m
Mit llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8
# GGUF-quantisiertes V4-Flash von HuggingFace Community-Repos herunterladen
# Dann ausführen:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
-n 2048 \
--ctx-size 8192 \
-p "You are a helpful assistant."
Empfohlene Sampling-Parameter
DeepSeek empfiehlt offiziell:
temperature = 1.0
top_p = 1.0
Für den Think Max-Modus sollte das Kontextfenster auf mindestens 384K Token eingestellt sein.
Performance-Erwartungen
| Hardware | Modell | Durchsatz (ca.) |
|---|---|---|
| 2× H100 80GB | V4-Flash | ~40–80 Token/Sek. |
| 4× A100 40GB | V4-Flash | ~20–40 Token/Sek. |
| 8× H100 80GB | V4-Flash | ~100–150 Token/Sek. |
| 16× H100 80GB | V4-Pro | ~15–30 Token/Sek. |
| RTX 5090 (quantisiert) | V4-Flash Q4 | ~5–15 Token/Sek. |
Dies sind grobe Schätzwerte — der tatsächliche Durchsatz hängt von der Kontextlänge, der Batch-Größe und Framework-Optimierungen ab.
Datenschutzvorteile für Unternehmen
Für Unternehmen mit sensiblen Daten — Krankenakten, Rechtsdokumente, Finanzdaten — bedeutet die lokale Bereitstellung von DeepSeek V4, dass keine Daten Ihre Infrastruktur verlassen. Im Gegensatz zu API-basierten Diensten gibt es keine Datenspeicherung, kein Logging auf Drittanbieter-Servern und keine Compliance-Bedenken beim Senden proprietärer Informationen an externe APIs.
Dies ist besonders relevant für Plattformen wie Framia.pro mit Unternehmenskunden, die KI-gestützte Kreativwerkzeuge ohne Bedenken hinsichtlich der Datensouveränität benötigen.
Fazit
DeepSeek V4-Flash lokal zu betreiben ist auf einem Dual-H100-Setup oder leistungsstarker quantisierter Hardware realisierbar. V4-Pro erfordert erhebliche GPU-Infrastruktur, liefert aber unübertroffene Open-Source-Fähigkeiten. Die MIT-Lizenz bedeutet, dass Sie die Bereitstellung vollständig kontrollieren — ein entscheidender Vorteil für datenschutzsensible und hochvolumige Anwendungsfälle.