Cómo ejecutar DeepSeek V4 localmente: requisitos de hardware y guía de configuración
Ejecutar DeepSeek V4 de forma local te ofrece privacidad total, sin costes de API por token, y control completo sobre los parámetros de inferencia. Tanto V4-Pro como V4-Flash son modelos de pesos abiertos con licencia MIT disponibles para descarga gratuita en HuggingFace. Aquí tienes todo lo que necesitas saber para ejecutarlos en tu propio hardware.
¿Ejecución local o API? ¿Qué te conviene más?
Antes de empezar con la configuración, considera tu caso de uso:
| Factor | Despliegue local | API |
|---|---|---|
| Coste (alto volumen) | ✅ Menor (hardware amortizado) | ❌ Tarifas por token |
| Privacidad | ✅ Total | ❌ Datos enviados a DeepSeek |
| Complejidad del setup | ❌ Alta | ✅ Ninguna |
| Latencia | ✅ Sin ida y vuelta por red | ❌ Dependiente de la red |
| Hardware necesario | ❌ Considerable | ✅ Ninguno |
| Versiones más recientes del modelo | ❌ Actualizaciones manuales | ✅ Automáticas |
El despliegue local es ideal para: requisitos de privacidad empresarial, producción de alto volumen donde los costes de GPU se amortizan por debajo del precio de la API, y flujos de trabajo de investigación/ajuste fino.
Requisitos de hardware
DeepSeek-V4-Flash (284B / 13B activos)
Precisión completa (FP8 + FP4 mixto):
- Tamaño de descarga: ~160 GB
- VRAM necesaria: ~160 GB
- GPU recomendada: 2× NVIDIA H100 80GB, o 2× H200, o 4× A100 40GB
Cuantizado (GGUF/GPTQ de la comunidad):
- Tamaño: ~80 GB (cuantización de 4 bits)
- VRAM necesaria: ~80 GB
- Viable con: 1× NVIDIA RTX 5090, o 2× RTX 4090 (24 GB cada una = 48 GB — insuficiente por sí sola, necesita descarga en CPU)
- Con descarga en CPU: RTX 5090 + 64 GB+ de RAM del sistema
DeepSeek-V4-Pro (1,6T / 49B activos)
Precisión completa (FP8 + FP4 mixto):
- Tamaño de descarga: ~865 GB
- VRAM necesaria: ~865 GB
- Clúster recomendado: 16× NVIDIA H100 80GB, o equivalente
- Mínimo viable: 12× H100 80GB con serving optimizado
Cuantizado (builds de la comunidad):
- Tamaño: ~200–400 GB (cuantización de 4 u 8 bits)
- VRAM necesaria: ~200–400 GB
- Viable con: 4–8× H100 80GB, o 8–16× A100 40GB
Valoración honesta: El despliegue local de V4-Pro solo es práctico para organizaciones con una infraestructura GPU considerable. V4-Flash es la opción accesible para particulares y equipos pequeños.
Paso 1: Descarga los pesos del modelo
Con HuggingFace CLI (recomendado)
# Instalar el CLI
pip install huggingface_hub
# Descargar el modelo V4-Flash instruct (~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/DeepSeek-V4-Flash \
--resume-download
# Descargar V4-Flash Base (opcional, para ajuste fino)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
--local-dir ./models/DeepSeek-V4-Flash-Base \
--resume-download
El flag --resume-download es fundamental para estas descargas tan grandes: permite reanudar descargas interrumpidas sin perder el progreso.
Desde ModelScope (más rápido en China)
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash
Paso 2: Configura el entorno de inferencia
DeepSeek V4 requiere scripts de codificación personalizados para la plantilla de chat. Clona las herramientas de inferencia del modelo:
# Clonar solo la carpeta de inferencia del repositorio
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo
Instala las dependencias:
pip install transformers torch accelerate
Paso 3: Ejecuta inferencia básica
Usa los scripts de codificación proporcionados:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch
model_path = "./models/DeepSeek-V4-Flash"
# Cargar tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)
# Cargar modelo (con mapeo automático de dispositivos para multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto", # Distribuye entre las GPU disponibles
torch_dtype=torch.float8_e4m3fn,
trust_remote_code=True
)
# Codificar una conversación
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to reverse a linked list."}
]
# Modo sin razonamiento
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
# Generar
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=2048,
temperature=1.0,
top_p=1.0,
do_sample=True
)
response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))
Paso 4: Cuantizaciones de la comunidad (llama.cpp / Ollama)
Si tu hardware es limitado, las cuantizaciones de la comunidad reducen drásticamente los requisitos:
Con Ollama (lo más fácil)
# Instalar Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# Descargar V4-Flash cuantizado por la comunidad (consulta la biblioteca de Ollama para versiones disponibles)
ollama pull deepseek-v4-flash:q4_k_m
# Ejecutar
ollama run deepseek-v4-flash:q4_k_m
Con llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8
# Descarga el V4-Flash GGUF cuantizado desde repositorios de la comunidad en HuggingFace
# Luego ejecuta:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
-n 2048 \
--ctx-size 8192 \
-p "You are a helpful assistant."
Parámetros de muestreo recomendados
DeepSeek recomienda oficialmente:
temperature = 1.0
top_p = 1.0
Para el modo Think Max, asegúrate de que tu ventana de contexto esté configurada en al menos 384K tokens.
Rendimiento esperado
| Hardware | Modelo | Rendimiento (aprox.) |
|---|---|---|
| 2× H100 80GB | V4-Flash | ~40–80 tokens/seg |
| 4× A100 40GB | V4-Flash | ~20–40 tokens/seg |
| 8× H100 80GB | V4-Flash | ~100–150 tokens/seg |
| 16× H100 80GB | V4-Pro | ~15–30 tokens/seg |
| RTX 5090 (cuantizado) | V4-Flash Q4 | ~5–15 tokens/seg |
Son estimaciones aproximadas — el rendimiento real depende de la longitud del contexto, el tamaño del lote y las optimizaciones del framework.
Ventajas de privacidad para empresas
Para empresas con datos sensibles —historiales médicos, documentos legales, datos financieros— el despliegue local de DeepSeek V4 garantiza que ningún dato sale de tu infraestructura. A diferencia de los servicios basados en API, no hay retención de datos, ni registros en servidores de terceros, ni preocupaciones de cumplimiento por enviar información propietaria a APIs externas.
Esto es especialmente relevante para plataformas como Framia.pro con clientes empresariales que necesitan herramientas creativas impulsadas por IA sin preocupaciones sobre la soberanía de los datos.
Conclusión
Ejecutar DeepSeek V4-Flash localmente es factible con una configuración de doble H100 o hardware cuantizado de alto rendimiento. V4-Pro requiere una infraestructura GPU considerable, pero ofrece una capacidad de código abierto sin igual. La licencia MIT significa que controlas completamente el despliegue — una ventaja clave para casos de uso sensibles a la privacidad y de alto volumen.