Ficha completa del modelo DeepSeek V4: especificaciones, referencia de API, precios, tabla de benchmarks, guía de despliegue local y notas técnicas para V4-Pro y V4-Flash.
Ficha del Modelo DeepSeek V4: Referencia Técnica Completa para Desarrolladores
La ficha del modelo DeepSeek V4 reúne todo lo que un desarrollador necesita para comprender y desplegar la serie V4. Esta referencia cubre las especificaciones técnicas completas, los métodos de acceso, las limitaciones conocidas y las directrices de uso para V4-Pro y V4-Flash.
Identidad del modelo
| Campo |
DeepSeek-V4-Pro |
DeepSeek-V4-Flash |
| ID del modelo |
deepseek-v4-pro |
deepseek-v4-flash |
| Desarrollador |
DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.) |
|
| Fecha de lanzamiento |
24 de abril de 2026 (Vista previa) |
|
| Licencia |
MIT License |
|
| Tipo de modelo |
Transformer solo-decodificador, MoE |
|
| Arquitectura |
Atención híbrida (CSA + HCA) + mHC |
|
| Parámetros totales |
1,6 Bill. |
284 000 M |
| Parámetros activos |
49 000 M |
13 000 M |
| Longitud de contexto |
1 000 000 tokens |
1 000 000 tokens |
| Precisión |
FP4 + FP8 mixto |
FP4 + FP8 mixto |
| Tamaño de descarga |
~865 GB |
~160 GB |
Mapa de repositorios en HuggingFace
| Repositorio |
Tipo |
URL |
| DeepSeek-V4-Pro |
Instruct (ajustado con RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro |
| DeepSeek-V4-Pro-Base |
Base preentrenada |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base |
| DeepSeek-V4-Flash |
Instruct (ajustado con RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash |
| DeepSeek-V4-Flash-Base |
Base preentrenada |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base |
Referencia de API
Puntos de conexión
- URL base:
https://api.deepseek.com/v1
- Completado de chat:
POST /chat/completions
- Formatos compatibles: OpenAI ChatCompletions API, Anthropic Messages API
Nombres de modelo (API)
deepseek-v4-pro — Modelo insignia con todas las capacidades
deepseek-v4-flash — Rápido y rentable
⚠️ Obsoleto (se retirará el 24 de julio de 2026): deepseek-chat, deepseek-reasoner
Precios
| Modelo |
Entrada |
Salida |
| deepseek-v4-flash |
$0,14 / 1 M de tokens |
$0,28 / 1 M de tokens |
| deepseek-v4-pro |
$1,74 / 1 M de tokens |
$3,48 / 1 M de tokens |
Detalles de la arquitectura
Sistema de atención híbrida
| Tipo de capa |
Mecanismo |
Propósito |
| Capas de tokens recientes |
Atención estándar |
Máxima fidelidad para el contexto cercano |
| Capas de tokens a distancia media |
Compressed Sparse Attention (CSA) |
Acceso eficiente al contexto a distancia moderada |
| Capas de tokens a larga distancia |
Heavily Compressed Attention (HCA) |
Representación compacta del historial lejano |
Eficiencia frente a V3.2 con contexto de 1 M:
- FLOPs: 27 % de V3.2 (reducción del 73 %)
- Caché KV: 10 % de V3.2 (reducción del 90 %)
Innovaciones de entrenamiento
| Innovación |
Descripción |
| Optimizador |
Muon (reemplaza a AdamW) |
| Conexiones residuales |
mHC (Manifold-Constrained Hyper-Connections) |
| Datos de preentrenamiento |
32 Bill.+ tokens diversos |
| Post-entrenamiento Etapa 1 |
Especialización de expertos mediante SFT + RL (GRPO) |
| Post-entrenamiento Etapa 2 |
Consolidación unificada mediante destilación on-policy |
Modos de inferencia
| Modo |
Parámetro API |
Presupuesto de razonamiento |
Requisito de contexto |
| Sin razonamiento |
"thinking": {"type": "disabled"} |
Ninguno |
Estándar |
| Razonamiento alto |
"thinking": {"type": "enabled", "budget_tokens": N} |
Definido por el usuario |
Estándar |
| Razonamiento máximo |
Prompt de sistema especial + "thinking": {"type": "max"} |
Extendido |
384K+ tokens recomendados |
Parámetros de muestreo recomendados
{
"temperature": 1.0,
"top_p": 1.0
}
Referencia de benchmarks
V4-Pro-Max frente a los modelos más avanzados
| Benchmark |
V4-Pro Max |
Opus 4.6 Max |
GPT-5.4 xHigh |
Gemini-3.1-Pro High |
| MMLU-Pro |
87,5 % |
89,1 % |
87,5 % |
91,0 % |
| GPQA Diamond |
90,1 % |
91,3 % |
93,0 % |
94,3 % |
| HLE |
37,7 % |
40,0 % |
39,8 % |
44,4 % |
| LiveCodeBench |
93,5 % |
88,8 % |
N/D |
91,7 % |
| Codeforces |
3206 |
N/D |
3168 |
3052 |
| SWE-bench Verified |
80,6 % |
80,8 % |
N/D |
80,6 % |
| SWE-bench Pro |
55,4 % |
57,3 % |
57,7 % |
54,2 % |
| Terminal Bench 2.0 |
67,9 % |
65,4 % |
75,1 % |
68,5 % |
| MRCR 1M |
83,5 % |
92,9 % |
N/D |
76,3 % |
| CorpusQA 1M |
62,0 % |
71,7 % |
N/D |
53,8 % |
Referencia de despliegue local
| Configuración |
Almacenamiento |
VRAM |
Configuración GPU mínima |
| V4-Flash (completo) |
160 GB |
~160 GB |
2× H100 80GB |
| V4-Flash (cuantización Q4) |
~80 GB |
~80 GB |
RTX 5090 |
| V4-Pro (completo) |
865 GB |
~865 GB |
16× H100 80GB |
| V4-Pro (cuantización Q4) |
~200–400 GB |
~200–400 GB |
4–8× H100 80GB |
Plantilla de chat
DeepSeek V4 no utiliza la plantilla de chat Jinja estándar de HuggingFace. Use los scripts de codificación personalizados en la carpeta encoding/ de cada repositorio.
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
prompt = encode_messages(messages, thinking_mode="no_think")
# Opciones: "no_think", "thinking", "max_thinking"
Limitaciones conocidas
- Solo texto en el lanzamiento: No hay comprensión nativa de imagen, audio o vídeo en la versión de vista previa de abril de 2026
- Estado de vista previa: Pueden existir casos extremos; DeepSeek recomienda seguir las cuentas oficiales para obtener actualizaciones
- Requisito de contexto de Think Max: Se requiere una ventana de contexto de 384K+ tokens para el mejor rendimiento en modo Think Max
- Descarga de gran tamaño: V4-Pro con 865 GB requiere un ancho de banda y almacenamiento considerable para el despliegue local
- Plantilla de chat: La codificación no estándar requiere usar los scripts proporcionados por el repositorio en lugar de las herramientas de pipeline estándar de HuggingFace
- Twitter oficial: @deepseek_ai
- GitHub: github.com/deepseek-ai
- HuggingFace: huggingface.co/deepseek-ai
- Documentación de API: api-docs.deepseek.com
- Correo electrónico: service@deepseek.com
- Chat web: chat.deepseek.com
Para los desarrolladores que trabajan en plataformas como Framia.pro que integran las capacidades de DeepSeek V4, esta ficha de modelo constituye la referencia técnica de autoridad para todas las decisiones de integración.
Cita
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}