Cómo ejecutar DeepSeek V4 localmente: requisitos de hardware y guía de configuración

Aprende a ejecutar DeepSeek V4-Flash y V4-Pro de forma local. Incluye requisitos de hardware, pasos de descarga, configuración de inferencia, opciones cuantizadas y benchmarks de rendimiento.

by Framia

Cómo ejecutar DeepSeek V4 localmente: requisitos de hardware y guía de configuración

Ejecutar DeepSeek V4 de forma local te ofrece privacidad total, sin costes de API por token, y control completo sobre los parámetros de inferencia. Tanto V4-Pro como V4-Flash son modelos de pesos abiertos con licencia MIT disponibles para descarga gratuita en HuggingFace. Aquí tienes todo lo que necesitas saber para ejecutarlos en tu propio hardware.


¿Ejecución local o API? ¿Qué te conviene más?

Antes de empezar con la configuración, considera tu caso de uso:

Factor Despliegue local API
Coste (alto volumen) ✅ Menor (hardware amortizado) ❌ Tarifas por token
Privacidad ✅ Total ❌ Datos enviados a DeepSeek
Complejidad del setup ❌ Alta ✅ Ninguna
Latencia ✅ Sin ida y vuelta por red ❌ Dependiente de la red
Hardware necesario ❌ Considerable ✅ Ninguno
Versiones más recientes del modelo ❌ Actualizaciones manuales ✅ Automáticas

El despliegue local es ideal para: requisitos de privacidad empresarial, producción de alto volumen donde los costes de GPU se amortizan por debajo del precio de la API, y flujos de trabajo de investigación/ajuste fino.


Requisitos de hardware

DeepSeek-V4-Flash (284B / 13B activos)

Precisión completa (FP8 + FP4 mixto):

  • Tamaño de descarga: ~160 GB
  • VRAM necesaria: ~160 GB
  • GPU recomendada: 2× NVIDIA H100 80GB, o 2× H200, o 4× A100 40GB

Cuantizado (GGUF/GPTQ de la comunidad):

  • Tamaño: ~80 GB (cuantización de 4 bits)
  • VRAM necesaria: ~80 GB
  • Viable con: 1× NVIDIA RTX 5090, o 2× RTX 4090 (24 GB cada una = 48 GB — insuficiente por sí sola, necesita descarga en CPU)
  • Con descarga en CPU: RTX 5090 + 64 GB+ de RAM del sistema

DeepSeek-V4-Pro (1,6T / 49B activos)

Precisión completa (FP8 + FP4 mixto):

  • Tamaño de descarga: ~865 GB
  • VRAM necesaria: ~865 GB
  • Clúster recomendado: 16× NVIDIA H100 80GB, o equivalente
  • Mínimo viable: 12× H100 80GB con serving optimizado

Cuantizado (builds de la comunidad):

  • Tamaño: ~200–400 GB (cuantización de 4 u 8 bits)
  • VRAM necesaria: ~200–400 GB
  • Viable con: 4–8× H100 80GB, o 8–16× A100 40GB

Valoración honesta: El despliegue local de V4-Pro solo es práctico para organizaciones con una infraestructura GPU considerable. V4-Flash es la opción accesible para particulares y equipos pequeños.


Paso 1: Descarga los pesos del modelo

Con HuggingFace CLI (recomendado)

# Instalar el CLI
pip install huggingface_hub

# Descargar el modelo V4-Flash instruct (~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# Descargar V4-Flash Base (opcional, para ajuste fino)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

El flag --resume-download es fundamental para estas descargas tan grandes: permite reanudar descargas interrumpidas sin perder el progreso.

Desde ModelScope (más rápido en China)

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

Paso 2: Configura el entorno de inferencia

DeepSeek V4 requiere scripts de codificación personalizados para la plantilla de chat. Clona las herramientas de inferencia del modelo:

# Clonar solo la carpeta de inferencia del repositorio
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

Instala las dependencias:

pip install transformers torch accelerate

Paso 3: Ejecuta inferencia básica

Usa los scripts de codificación proporcionados:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# Cargar tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# Cargar modelo (con mapeo automático de dispositivos para multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # Distribuye entre las GPU disponibles
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# Codificar una conversación
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# Modo sin razonamiento
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# Generar
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

Paso 4: Cuantizaciones de la comunidad (llama.cpp / Ollama)

Si tu hardware es limitado, las cuantizaciones de la comunidad reducen drásticamente los requisitos:

Con Ollama (lo más fácil)

# Instalar Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Descargar V4-Flash cuantizado por la comunidad (consulta la biblioteca de Ollama para versiones disponibles)
ollama pull deepseek-v4-flash:q4_k_m

# Ejecutar
ollama run deepseek-v4-flash:q4_k_m

Con llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# Descarga el V4-Flash GGUF cuantizado desde repositorios de la comunidad en HuggingFace
# Luego ejecuta:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

Parámetros de muestreo recomendados

DeepSeek recomienda oficialmente:

temperature = 1.0
top_p = 1.0

Para el modo Think Max, asegúrate de que tu ventana de contexto esté configurada en al menos 384K tokens.


Rendimiento esperado

Hardware Modelo Rendimiento (aprox.)
2× H100 80GB V4-Flash ~40–80 tokens/seg
4× A100 40GB V4-Flash ~20–40 tokens/seg
8× H100 80GB V4-Flash ~100–150 tokens/seg
16× H100 80GB V4-Pro ~15–30 tokens/seg
RTX 5090 (cuantizado) V4-Flash Q4 ~5–15 tokens/seg

Son estimaciones aproximadas — el rendimiento real depende de la longitud del contexto, el tamaño del lote y las optimizaciones del framework.


Ventajas de privacidad para empresas

Para empresas con datos sensibles —historiales médicos, documentos legales, datos financieros— el despliegue local de DeepSeek V4 garantiza que ningún dato sale de tu infraestructura. A diferencia de los servicios basados en API, no hay retención de datos, ni registros en servidores de terceros, ni preocupaciones de cumplimiento por enviar información propietaria a APIs externas.

Esto es especialmente relevante para plataformas como Framia.pro con clientes empresariales que necesitan herramientas creativas impulsadas por IA sin preocupaciones sobre la soberanía de los datos.


Conclusión

Ejecutar DeepSeek V4-Flash localmente es factible con una configuración de doble H100 o hardware cuantizado de alto rendimiento. V4-Pro requiere una infraestructura GPU considerable, pero ofrece una capacidad de código abierto sin igual. La licencia MIT significa que controlas completamente el despliegue — una ventaja clave para casos de uso sensibles a la privacidad y de alto volumen.