DeepSeek V4 en HuggingFace: Guía de descarga y acceso (2026)

Los pesos de DeepSeek V4-Pro y V4-Flash están disponibles gratuitamente en HuggingFace bajo licencia MIT. Aprende a encontrarlos, descargarlos, ejecutarlos o acceder vía Framia.pro.

DeepSeek V4 en HuggingFace: Cómo acceder y descargar los pesos abiertos

DeepSeek V4 es completamente de código abierto, con todos los pesos del modelo disponibles públicamente en HuggingFace bajo la permisiva Licencia MIT. Ya sea que quieras ejecutar el modelo localmente, ajustarlo para tu caso de uso o simplemente inspeccionar su arquitectura, HuggingFace es el canal de distribución principal para DeepSeek V4.

Esta guía te explica exactamente dónde encontrar los modelos, qué contiene cada repositorio, el tamaño de las descargas y cómo empezar a usarlos.

Enlaces a los repositorios de DeepSeek V4 en HuggingFace

DeepSeek publicó cuatro repositorios de modelos en la colección oficial deepseek-ai de HuggingFace:

Repositorio	Tipo	Parámetros (Total / Activos)	Precisión	Tamaño
deepseek-ai/DeepSeek-V4-Flash-Base	Base (preentrenado)	284B / 13B	FP8 Mixed	~160 GB
deepseek-ai/DeepSeek-V4-Flash	Instruct (ajustado con RLHF)	284B / 13B	FP4 + FP8 Mixed	~160 GB
deepseek-ai/DeepSeek-V4-Pro-Base	Base (preentrenado)	1.6T / 49B	FP8 Mixed	~865 GB
deepseek-ai/DeepSeek-V4-Pro	Instruct (ajustado con RLHF)	1.6T / 49B	FP4 + FP8 Mixed	~865 GB

Los cuatro repositorios forman parte de la colección deepseek-ai/deepseek-v4.

Qué contiene cada repositorio

Cada repositorio de modelo V4 incluye:

Pesos del modelo en formato SafeTensors (divididos en múltiples fragmentos)
DeepSeek_V4.pdf — el informe técnico completo
Carpeta encoding/ — scripts en Python para construir prompts compatibles con OpenAI y analizar la salida del modelo
Carpeta inference/ — instrucciones detalladas para ejecutar el modelo localmente
LICENSE — archivo de Licencia MIT
README con la ficha del modelo, tablas de benchmarks y citas

El informe técnico (DeepSeek_V4.pdf) se aloja en el repositorio Pro y cubre todos los detalles de la arquitectura, incluido el mecanismo Hybrid Attention, mHC y la metodología de entrenamiento.

Licencia: MIT, no Apache

Un malentendido común es que DeepSeek usa la licencia Apache 2.0 (como hizo con algunos modelos anteriores). DeepSeek V4 se lanza bajo la Licencia MIT, que es aún más permisiva:

✅ Uso comercial permitido
✅ Modificación permitida
✅ Distribución permitida
✅ Uso privado permitido
✅ Sin cláusulas de patentes ni restricciones adicionales

Esto significa que puedes crear productos propietarios basados en V4, ajustar y redistribuir derivados, y usarlo en cualquier contexto comercial sin restricciones, más allá de conservar el aviso de copyright MIT.

Cómo descargar los pesos de DeepSeek V4

Opción 1: HuggingFace CLI (Recomendado)

pip install huggingface_hub

# Descargar V4-Flash (instruct, ~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

# Descargar V4-Pro (instruct, ~865 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro

Opción 2: Python con huggingface_hub

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="deepseek-ai/DeepSeek-V4-Flash",
    local_dir="./DeepSeek-V4-Flash"
)

Opción 3: ModelScope (Recomendado para usuarios en China)

DeepSeek V4 también está disponible en ModelScope con las mismas rutas de repositorio (deepseek-ai/DeepSeek-V4-Flash, etc.), lo que puede ofrecer velocidades de descarga más rápidas desde China continental.

Requisitos de almacenamiento y ancho de banda

Modelo	Espacio en disco	VRAM requerida	Configuración GPU recomendada
V4-Flash	~160 GB	~160 GB VRAM	2x H100 80GB o 8x A100 40GB
V4-Pro	~865 GB	~865 GB VRAM	16x H100 80GB (o equivalente)
V4-Flash (cuantizado)	~80 GB	~80 GB VRAM	2x RTX 4090 / 1x RTX 5090
V4-Pro (cuantizado)	~200 GB	~200 GB VRAM	4-8x H100

Nota: DeepSeek utiliza precisión mixta FP4+FP8, por lo que los pesos sin procesar ya están muy comprimidos. Las versiones cuantizadas por la comunidad (GGUF/GPTQ) están apareciendo en HuggingFace y pueden reducir aún más estos requisitos.

Ejecutar el modelo: notas clave de configuración

DeepSeek V4 no utiliza la plantilla de chat Jinja estándar de HuggingFace. En su lugar, debes usar los scripts de codificación personalizados que se proporcionan en la carpeta encoding/ del repositorio.

Un ejemplo mínimo:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "Explica la arquitectura Hybrid Attention en DeepSeek V4"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)

Para la configuración completa de inferencia, consulta inference/README.md dentro de cada repositorio.

Actividad comunitaria en HuggingFace

En pocos días tras el lanzamiento del 24 de abril de 2026, el repositorio DeepSeek V4-Pro registró más de 123.000 descargas y 22 Spaces comunitarios construidos sobre él. La comunidad produjo rápidamente:

Cuantizaciones GGUF para llama.cpp (habilitando inferencia híbrida CPU+GPU)
Versiones compatibles con LM Studio
Compilaciones para Ollama
Paquetes compatibles con Jan

Estas cuantizaciones mantenidas por la comunidad hacen posible ejecutar V4-Flash en una sola RTX 4090, un logro notable para un modelo de 284.000 millones de parámetros.

DeepSeek V4 y las plataformas de IA

Si prefieres el acceso mediante API en lugar de gestionar pesos locales, los modelos V4 también están disponibles a través de múltiples proveedores de inferencia. Plataformas como Framia.pro integran modelos de IA de vanguardia, incluidas las últimas versiones de DeepSeek, para ofrecer a creadores y desarrolladores un acceso fluido a la API sin necesidad de gestionar infraestructura.

Conclusión

DeepSeek V4 en HuggingFace es uno de los lanzamientos de modelos frontier más accesibles de la historia de la IA. Cuatro repositorios, licencia MIT, un informe técnico completo y herramientas de inferencia personalizadas están disponibles de forma gratuita. Ya sea que lo ejecutes en un clúster de GPUs, experimentes con cuantizaciones comunitarias o accedas a él a través de una API, HuggingFace es tu punto de partida.