DeepSeek V4 auf HuggingFace: So greifst du auf die Open Weights zu und lädst sie herunter

DeepSeek V4-Pro und V4-Flash Gewichte sind unter der MIT-Lizenz kostenlos auf HuggingFace verfügbar. So findest, lädst und nutzt du sie lokal – plus API-Zugang über Framia.pro.

by Framia

DeepSeek V4 auf HuggingFace: So greifst du auf die Open Weights zu und lädst sie herunter

DeepSeek V4 ist vollständig Open-Source – alle Modellgewichte sind öffentlich auf HuggingFace unter der freizügigen MIT-Lizenz verfügbar. Ob du das Modell lokal ausführen, es für deinen Anwendungsfall feinabstimmen oder einfach die Architektur erkunden möchtest: HuggingFace ist der primäre Distributionskanal für DeepSeek V4.

Diese Anleitung zeigt dir genau, wo du die Modelle findest, was in jedem Repository enthalten ist, wie groß die Downloads sind und wie du anfangen kannst, sie zu nutzen.


DeepSeek hat vier Modell-Repositories in der offiziellen deepseek-ai-HuggingFace-Sammlung veröffentlicht:

Repository Typ Parameter (Gesamt / Aktiv) Präzision Größe
deepseek-ai/DeepSeek-V4-Flash-Base Basis (vortrainiert) 284B / 13B FP8 Mixed ~160 GB
deepseek-ai/DeepSeek-V4-Flash Instruct (RLHF-feinabgestimmt) 284B / 13B FP4 + FP8 Mixed ~160 GB
deepseek-ai/DeepSeek-V4-Pro-Base Basis (vortrainiert) 1.6T / 49B FP8 Mixed ~865 GB
deepseek-ai/DeepSeek-V4-Pro Instruct (RLHF-feinabgestimmt) 1.6T / 49B FP4 + FP8 Mixed ~865 GB

Alle vier Repositories sind Teil der deepseek-ai/deepseek-v4-Sammlung.


Was jedes Repository enthält

Jedes V4-Modell-Repository enthält:

  • Modellgewichte im SafeTensors-Format (auf mehrere Shards aufgeteilt)
  • DeepSeek_V4.pdf — der vollständige technische Bericht
  • encoding/-Ordner — Python-Skripte zum Erstellen von OpenAI-kompatiblen Prompts und zum Parsen der Modellausgaben
  • inference/-Ordner — detaillierte Anleitung zur lokalen Ausführung des Modells
  • LICENSE — MIT-Lizenzdatei
  • README mit Modellkarte, Benchmark-Tabellen und Zitierhinweisen

Der technische Bericht (DeepSeek_V4.pdf) ist im Pro-Repository gehostet und enthält vollständige Architekturdetails, darunter den Hybrid-Attention-Mechanismus, mHC und die Trainingsmethodik.


Lizenz: MIT, nicht Apache

Ein häufiges Missverständnis ist, dass DeepSeek die Apache-2.0-Lizenz verwendet (wie bei einigen früheren Modellen). DeepSeek V4 wird unter der MIT-Lizenz veröffentlicht, die noch freizügiger ist:

  • ✅ Kommerzielle Nutzung erlaubt
  • ✅ Modifikation erlaubt
  • ✅ Weitergabe erlaubt
  • ✅ Private Nutzung erlaubt
  • ✅ Keine Patentklauseln oder zusätzliche Einschränkungen

Das bedeutet, du kannst proprietäre Produkte auf Basis von V4 entwickeln, Ableitungen feinabstimmen und weitervertreiben sowie es in jedem kommerziellen Kontext nutzen – du musst lediglich den MIT-Urheberrechtsvermerk beibehalten.


So lädst du die DeepSeek V4-Gewichte herunter

Option 1: HuggingFace CLI (Empfohlen)

pip install huggingface_hub

# V4-Flash herunterladen (Instruct, ~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

# V4-Pro herunterladen (Instruct, ~865 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro

Option 2: Python mit huggingface_hub

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="deepseek-ai/DeepSeek-V4-Flash",
    local_dir="./DeepSeek-V4-Flash"
)

Option 3: ModelScope (Empfohlen für Nutzer in China)

DeepSeek V4 ist auch auf ModelScope unter denselben Repository-Pfaden verfügbar (deepseek-ai/DeepSeek-V4-Flash usw.), was für Nutzer aus dem chinesischen Festland möglicherweise schnellere Download-Geschwindigkeiten bietet.


Speicher- und Bandbreitenanforderungen

Modell Speicherplatz Benötigte VRAM Empfohlenes GPU-Setup
V4-Flash ~160 GB ~160 GB VRAM 2× H100 80GB oder 8× A100 40GB
V4-Pro ~865 GB ~865 GB VRAM 16× H100 80GB (oder äquivalent)
V4-Flash (quantisiert) ~80 GB ~80 GB VRAM 2× RTX 4090 / 1× RTX 5090
V4-Pro (quantisiert) ~200 GB ~200 GB VRAM 4–8× H100

Hinweis: DeepSeek verwendet gemischte FP4+FP8-Präzision, sodass die rohen Gewichte bereits stark komprimiert sind. Von der Community bereitgestellte quantisierte Versionen (GGUF/GPTQ) erscheinen auf HuggingFace und können diese Anforderungen weiter reduzieren.


Modell ausführen: Wichtige Setup-Hinweise

DeepSeek V4 verwendet kein Standard-HuggingFace-Jinja-Chat-Template. Stattdessen musst du die benutzerdefinierten Encoding-Skripte im encoding/-Ordner des Repositories verwenden.

Ein minimales Beispiel:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "Erkläre die Hybrid-Attention-Architektur in DeepSeek V4"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)

Für das vollständige Inferenz-Setup lies inference/README.md in jedem Repository.


Community-Aktivität auf HuggingFace

Innerhalb weniger Tage nach dem Launch am 24. April 2026 verzeichnete das DeepSeek V4-Pro-Repository über 123.000 Downloads und 22 Community-Spaces, die darauf aufbauen. Die Community produzierte schnell:

  • GGUF-Quantisierungen für llama.cpp (ermöglicht CPU+GPU-Hybrid-Inferenz)
  • LM Studio-kompatible Versionen
  • Ollama-Builds
  • Jan-kompatible Pakete

Diese von der Community gepflegten Quantisierungen machen es möglich, V4-Flash auf einer einzelnen RTX 4090 zu betreiben – eine bemerkenswerte Leistung für ein Modell mit 284 Milliarden Parametern.


DeepSeek V4 und KI-Plattformen

Wenn du lieber API-Zugang nutzen möchtest, anstatt lokale Gewichte zu verwalten, sind die V4-Modelle auch über mehrere Inferenz-Anbieter verfügbar. Plattformen wie Framia.pro integrieren führende KI-Modelle – einschließlich der neuesten DeepSeek-Releases – und bieten Entwicklern und Kreativen nahtlosen API-Zugang ohne Infrastrukturverwaltung.


Fazit

DeepSeek V4 auf HuggingFace ist eine der zugänglichsten Frontier-Modell-Veröffentlichungen in der KI-Geschichte. Vier Repositories, MIT-Lizenzierung, ein umfassender technischer Bericht und benutzerdefiniertes Inferenz-Tooling sind alle kostenlos verfügbar. Ob du es auf einem GPU-Cluster ausführst, mit Community-Quantisierungen experimentierst oder über eine API darauf zugreifst – HuggingFace ist dein Ausgangspunkt.