DeepSeek V4 lokal betreiben: Hardwareanforderungen und Setup-Anleitung

Erfahren Sie, wie Sie DeepSeek V4-Flash und V4-Pro lokal ausführen. Hardwareanforderungen, Download, Inferenz-Setup, Quantisierungsoptionen und Performance-Benchmarks.

by Framia

DeepSeek V4 lokal betreiben: Hardwareanforderungen und Setup-Anleitung

DeepSeek V4 lokal auszuführen bietet vollständigen Datenschutz, keine tokenbasierten API-Kosten und vollständige Kontrolle über die Inferenzeinstellungen. Sowohl V4-Pro als auch V4-Flash sind MIT-lizenzierte Open-Weight-Modelle, die kostenlos von HuggingFace heruntergeladen werden können. Hier ist alles, was Sie wissen müssen, um sie auf Ihrer eigenen Hardware zu betreiben.


Lokale Bereitstellung oder API – was ist sinnvoller?

Bevor Sie mit dem Setup beginnen, sollten Sie Ihren Anwendungsfall berücksichtigen:

Faktor Lokale Bereitstellung API
Kosten (hohes Volumen) ✅ Geringer (Hardware amortisiert) ❌ Tokenbasierte Gebühren
Datenschutz ✅ Vollständig ❌ Daten werden an DeepSeek gesendet
Setup-Komplexität ❌ Hoch ✅ Keine
Latenz ✅ Kein Netzwerk-Roundtrip ❌ Netzwerkabhängig
Benötigte Hardware ❌ Erheblich ✅ Keine
Neueste Modellversionen ❌ Manuelle Updates ✅ Automatisch

Lokale Bereitstellung eignet sich am besten für: Datenschutzanforderungen im Unternehmensbereich, hochvolumige Produktion, bei der GPU-Kosten unter API-Preise amortisiert werden, sowie Forschungs- und Fine-Tuning-Workflows.


Hardwareanforderungen

DeepSeek-V4-Flash (284B / 13B aktiv)

Volle Präzision (FP8 + FP4 gemischt):

  • Download-Größe: ~160 GB
  • Benötigter VRAM: ~160 GB
  • Empfohlene GPU: 2× NVIDIA H100 80GB, oder 2× H200, oder 4× A100 40GB

Quantisiert (Community GGUF/GPTQ):

  • Größe: ~80 GB (4-Bit quantisiert)
  • Benötigter VRAM: ~80 GB
  • Möglich auf: 1× NVIDIA RTX 5090, oder 2× RTX 4090 (je 24 GB = 48 GB — allein nicht ausreichend, CPU-Offload erforderlich)
  • Mit CPU-Offload: RTX 5090 + 64 GB+ Systemarbeitsspeicher

DeepSeek-V4-Pro (1,6T / 49B aktiv)

Volle Präzision (FP8 + FP4 gemischt):

  • Download-Größe: ~865 GB
  • Benötigter VRAM: ~865 GB
  • Empfohlenes Cluster: 16× NVIDIA H100 80GB oder gleichwertig
  • Minimum: 12× H100 80GB mit optimiertem Serving

Quantisiert (Community-Builds):

  • Größe: ~200–400 GB (4-Bit oder 8-Bit quantisiert)
  • Benötigter VRAM: ~200–400 GB
  • Möglich auf: 4–8× H100 80GB oder 8–16× A100 40GB

Ehrliche Einschätzung: Die lokale Bereitstellung von V4-Pro ist nur für Organisationen mit erheblicher GPU-Infrastruktur praktikabel. V4-Flash ist die zugängliche Option für Einzelpersonen und kleine Teams.


Schritt 1: Modellgewichte herunterladen

Mit HuggingFace CLI (Empfohlen)

# CLI installieren
pip install huggingface_hub

# V4-Flash Instruct-Modell herunterladen (~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# V4-Flash Base herunterladen (optional, für Fine-Tuning)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

Das Flag --resume-download ist bei diesen großen Downloads entscheidend — es ermöglicht das Fortsetzen unterbrochener Downloads ohne Datenverlust.

Von ModelScope (schneller in China)

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

Schritt 2: Inferenzumgebung einrichten

DeepSeek V4 benötigt benutzerdefinierte Encoding-Skripte für das Chat-Template. Klonen Sie die Inferenz-Tools des Modells:

# Nur den Inferenzordner aus dem Repository klonen
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

Abhängigkeiten installieren:

pip install transformers torch accelerate

Schritt 3: Grundlegende Inferenz ausführen

Verwenden Sie die bereitgestellten Encoding-Skripte:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# Tokenizer laden
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# Modell laden (mit automatischem Geräte-Mapping für Multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # Verteilt auf verfügbare GPUs
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# Konversation enkodieren
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# Nicht-Denk-Modus
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# Generieren
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

Schritt 4: Community-Quantisierungen verwenden (llama.cpp / Ollama)

Bei begrenzter Hardware reduzieren Community-Quantisierungen die Anforderungen drastisch:

Mit Ollama (Am einfachsten)

# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh

# Community-quantisiertes V4-Flash laden (verfügbare Versionen in der Ollama-Bibliothek prüfen)
ollama pull deepseek-v4-flash:q4_k_m

# Ausführen
ollama run deepseek-v4-flash:q4_k_m

Mit llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# GGUF-quantisiertes V4-Flash von HuggingFace Community-Repos herunterladen
# Dann ausführen:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

Empfohlene Sampling-Parameter

DeepSeek empfiehlt offiziell:

temperature = 1.0
top_p = 1.0

Für den Think Max-Modus sollte das Kontextfenster auf mindestens 384K Token eingestellt sein.


Performance-Erwartungen

Hardware Modell Durchsatz (ca.)
2× H100 80GB V4-Flash ~40–80 Token/Sek.
4× A100 40GB V4-Flash ~20–40 Token/Sek.
8× H100 80GB V4-Flash ~100–150 Token/Sek.
16× H100 80GB V4-Pro ~15–30 Token/Sek.
RTX 5090 (quantisiert) V4-Flash Q4 ~5–15 Token/Sek.

Dies sind grobe Schätzwerte — der tatsächliche Durchsatz hängt von der Kontextlänge, der Batch-Größe und Framework-Optimierungen ab.


Datenschutzvorteile für Unternehmen

Für Unternehmen mit sensiblen Daten — Krankenakten, Rechtsdokumente, Finanzdaten — bedeutet die lokale Bereitstellung von DeepSeek V4, dass keine Daten Ihre Infrastruktur verlassen. Im Gegensatz zu API-basierten Diensten gibt es keine Datenspeicherung, kein Logging auf Drittanbieter-Servern und keine Compliance-Bedenken beim Senden proprietärer Informationen an externe APIs.

Dies ist besonders relevant für Plattformen wie Framia.pro mit Unternehmenskunden, die KI-gestützte Kreativwerkzeuge ohne Bedenken hinsichtlich der Datensouveränität benötigen.


Fazit

DeepSeek V4-Flash lokal zu betreiben ist auf einem Dual-H100-Setup oder leistungsstarker quantisierter Hardware realisierbar. V4-Pro erfordert erhebliche GPU-Infrastruktur, liefert aber unübertroffene Open-Source-Fähigkeiten. Die MIT-Lizenz bedeutet, dass Sie die Bereitstellung vollständig kontrollieren — ein entscheidender Vorteil für datenschutzsensible und hochvolumige Anwendungsfälle.