DeepSeek V4 auf HuggingFace: So greifst du auf die Open Weights zu und lädst sie herunter
DeepSeek V4 ist vollständig Open-Source – alle Modellgewichte sind öffentlich auf HuggingFace unter der freizügigen MIT-Lizenz verfügbar. Ob du das Modell lokal ausführen, es für deinen Anwendungsfall feinabstimmen oder einfach die Architektur erkunden möchtest: HuggingFace ist der primäre Distributionskanal für DeepSeek V4.
Diese Anleitung zeigt dir genau, wo du die Modelle findest, was in jedem Repository enthalten ist, wie groß die Downloads sind und wie du anfangen kannst, sie zu nutzen.
DeepSeek V4 HuggingFace-Repository-Links
DeepSeek hat vier Modell-Repositories in der offiziellen deepseek-ai-HuggingFace-Sammlung veröffentlicht:
| Repository | Typ | Parameter (Gesamt / Aktiv) | Präzision | Größe |
|---|---|---|---|---|
| deepseek-ai/DeepSeek-V4-Flash-Base | Basis (vortrainiert) | 284B / 13B | FP8 Mixed | ~160 GB |
| deepseek-ai/DeepSeek-V4-Flash | Instruct (RLHF-feinabgestimmt) | 284B / 13B | FP4 + FP8 Mixed | ~160 GB |
| deepseek-ai/DeepSeek-V4-Pro-Base | Basis (vortrainiert) | 1.6T / 49B | FP8 Mixed | ~865 GB |
| deepseek-ai/DeepSeek-V4-Pro | Instruct (RLHF-feinabgestimmt) | 1.6T / 49B | FP4 + FP8 Mixed | ~865 GB |
Alle vier Repositories sind Teil der deepseek-ai/deepseek-v4-Sammlung.
Was jedes Repository enthält
Jedes V4-Modell-Repository enthält:
- Modellgewichte im SafeTensors-Format (auf mehrere Shards aufgeteilt)
- DeepSeek_V4.pdf — der vollständige technische Bericht
- encoding/-Ordner — Python-Skripte zum Erstellen von OpenAI-kompatiblen Prompts und zum Parsen der Modellausgaben
- inference/-Ordner — detaillierte Anleitung zur lokalen Ausführung des Modells
- LICENSE — MIT-Lizenzdatei
- README mit Modellkarte, Benchmark-Tabellen und Zitierhinweisen
Der technische Bericht (DeepSeek_V4.pdf) ist im Pro-Repository gehostet und enthält vollständige Architekturdetails, darunter den Hybrid-Attention-Mechanismus, mHC und die Trainingsmethodik.
Lizenz: MIT, nicht Apache
Ein häufiges Missverständnis ist, dass DeepSeek die Apache-2.0-Lizenz verwendet (wie bei einigen früheren Modellen). DeepSeek V4 wird unter der MIT-Lizenz veröffentlicht, die noch freizügiger ist:
- ✅ Kommerzielle Nutzung erlaubt
- ✅ Modifikation erlaubt
- ✅ Weitergabe erlaubt
- ✅ Private Nutzung erlaubt
- ✅ Keine Patentklauseln oder zusätzliche Einschränkungen
Das bedeutet, du kannst proprietäre Produkte auf Basis von V4 entwickeln, Ableitungen feinabstimmen und weitervertreiben sowie es in jedem kommerziellen Kontext nutzen – du musst lediglich den MIT-Urheberrechtsvermerk beibehalten.
So lädst du die DeepSeek V4-Gewichte herunter
Option 1: HuggingFace CLI (Empfohlen)
pip install huggingface_hub
# V4-Flash herunterladen (Instruct, ~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash
# V4-Pro herunterladen (Instruct, ~865 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro
Option 2: Python mit huggingface_hub
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="deepseek-ai/DeepSeek-V4-Flash",
local_dir="./DeepSeek-V4-Flash"
)
Option 3: ModelScope (Empfohlen für Nutzer in China)
DeepSeek V4 ist auch auf ModelScope unter denselben Repository-Pfaden verfügbar (deepseek-ai/DeepSeek-V4-Flash usw.), was für Nutzer aus dem chinesischen Festland möglicherweise schnellere Download-Geschwindigkeiten bietet.
Speicher- und Bandbreitenanforderungen
| Modell | Speicherplatz | Benötigte VRAM | Empfohlenes GPU-Setup |
|---|---|---|---|
| V4-Flash | ~160 GB | ~160 GB VRAM | 2× H100 80GB oder 8× A100 40GB |
| V4-Pro | ~865 GB | ~865 GB VRAM | 16× H100 80GB (oder äquivalent) |
| V4-Flash (quantisiert) | ~80 GB | ~80 GB VRAM | 2× RTX 4090 / 1× RTX 5090 |
| V4-Pro (quantisiert) | ~200 GB | ~200 GB VRAM | 4–8× H100 |
Hinweis: DeepSeek verwendet gemischte FP4+FP8-Präzision, sodass die rohen Gewichte bereits stark komprimiert sind. Von der Community bereitgestellte quantisierte Versionen (GGUF/GPTQ) erscheinen auf HuggingFace und können diese Anforderungen weiter reduzieren.
Modell ausführen: Wichtige Setup-Hinweise
DeepSeek V4 verwendet kein Standard-HuggingFace-Jinja-Chat-Template. Stattdessen musst du die benutzerdefinierten Encoding-Skripte im encoding/-Ordner des Repositories verwenden.
Ein minimales Beispiel:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
messages = [
{"role": "user", "content": "Erkläre die Hybrid-Attention-Architektur in DeepSeek V4"}
]
prompt = encode_messages(messages, thinking_mode="thinking")
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)
Für das vollständige Inferenz-Setup lies inference/README.md in jedem Repository.
Community-Aktivität auf HuggingFace
Innerhalb weniger Tage nach dem Launch am 24. April 2026 verzeichnete das DeepSeek V4-Pro-Repository über 123.000 Downloads und 22 Community-Spaces, die darauf aufbauen. Die Community produzierte schnell:
- GGUF-Quantisierungen für llama.cpp (ermöglicht CPU+GPU-Hybrid-Inferenz)
- LM Studio-kompatible Versionen
- Ollama-Builds
- Jan-kompatible Pakete
Diese von der Community gepflegten Quantisierungen machen es möglich, V4-Flash auf einer einzelnen RTX 4090 zu betreiben – eine bemerkenswerte Leistung für ein Modell mit 284 Milliarden Parametern.
DeepSeek V4 und KI-Plattformen
Wenn du lieber API-Zugang nutzen möchtest, anstatt lokale Gewichte zu verwalten, sind die V4-Modelle auch über mehrere Inferenz-Anbieter verfügbar. Plattformen wie Framia.pro integrieren führende KI-Modelle – einschließlich der neuesten DeepSeek-Releases – und bieten Entwicklern und Kreativen nahtlosen API-Zugang ohne Infrastrukturverwaltung.
Fazit
DeepSeek V4 auf HuggingFace ist eine der zugänglichsten Frontier-Modell-Veröffentlichungen in der KI-Geschichte. Vier Repositories, MIT-Lizenzierung, ein umfassender technischer Bericht und benutzerdefiniertes Inferenz-Tooling sind alle kostenlos verfügbar. Ob du es auf einem GPU-Cluster ausführst, mit Community-Quantisierungen experimentierst oder über eine API darauf zugreifst – HuggingFace ist dein Ausgangspunkt.