DeepSeek V4: Especificaciones Completas, Funciones y Capacidades del Modelo de IA
Este artículo reúne todos los detalles clave sobre las especificaciones, funciones y capacidades de DeepSeek V4 en una referencia completa — la guía definitiva para quienes evalúan, integran o estudian la serie V4.
Especificaciones principales
DeepSeek-V4-Pro
| Especificación | Detalle |
|---|---|
| Arquitectura | Mixture of Experts (MoE) + Atención híbrida (CSA + HCA) + mHC |
| Parámetros totales | 1,6 billones |
| Parámetros activos (por token) | 49.000 millones |
| Longitud de contexto | 1.000.000 tokens (por defecto) |
| Datos de preentrenamiento | Más de 32 billones de tokens variados |
| Licencia | MIT |
| Fecha de lanzamiento | 24 de abril de 2026 (vista previa) |
| Precisión | FP4 (expertos) + FP8 (otros pesos) mixto |
| Tamaño de descarga | ~865 GB |
| ID de HuggingFace | deepseek-ai/DeepSeek-V4-Pro |
| Nombre del modelo API | deepseek-v4-pro |
| Precio de entrada API | 1,74 $ por millón de tokens |
| Precio de salida API | 3,48 $ por millón de tokens |
DeepSeek-V4-Flash
| Especificación | Detalle |
|---|---|
| Arquitectura | MoE + Atención híbrida (CSA + HCA) + mHC |
| Parámetros totales | 284.000 millones |
| Parámetros activos (por token) | 13.000 millones |
| Longitud de contexto | 1.000.000 tokens (por defecto) |
| Datos de preentrenamiento | Más de 32 billones de tokens variados |
| Licencia | MIT |
| Fecha de lanzamiento | 24 de abril de 2026 (vista previa) |
| Precisión | FP4 (expertos) + FP8 (otros pesos) mixto |
| Tamaño de descarga | ~160 GB |
| ID de HuggingFace | deepseek-ai/DeepSeek-V4-Flash |
| Nombre del modelo API | deepseek-v4-flash |
| Precio de entrada API | 0,14 $ por millón de tokens |
| Precio de salida API | 0,28 $ por millón de tokens |
Análisis detallado de la arquitectura
Atención híbrida: CSA + HCA
La innovación fundamental de la arquitectura V4 combina dos mecanismos de atención complementarios:
Compressed Sparse Attention (CSA): Aplica compresión por token a los pares clave-valor para contextos moderadamente distantes, manteniendo la fidelidad y reduciendo los requisitos de memoria y cómputo.
Heavily Compressed Attention (HCA): Aplica compresión agresiva a tokens muy distantes, almacenando representaciones de resumen compactas que permiten al modelo "recordar" información en todo el contexto de un millón de tokens sin el overhead completo de atención.
Efecto combinado en contexto de 1 millón de tokens frente a V3.2:
- FLOPs de inferencia: reducidos al 27 % de V3.2
- Memoria de caché KV: reducida al 10 % de V3.2
Manifold-Constrained Hyper-Connections (mHC)
Sustituye las conexiones residuales estándar en toda la red. Al restringir las actualizaciones de pesos a una variedad riemanniana, mHC refuerza la propagación de señales a través de las cientos de capas transformer de V4-Pro, permitiendo un entrenamiento estable con 1,6 billones de parámetros.
Optimizador Muon
El optimizador Muon (Momentum + Ortogonalización) reemplaza a AdamW. Al ortogonalizar las actualizaciones de gradientes:
- Elimina la redundancia entre pasos de actualización sucesivos
- Logra una convergencia más rápida (más aprendizaje por paso de entrenamiento)
- Ofrece mayor estabilidad a escala de preentrenamiento con más de 32 billones de tokens
Tres modos de razonamiento
| Modo | Descripción | Config. API | Necesidades de contexto |
|---|---|---|---|
| Non-think | Respuesta directa, sin cadena de pensamiento | thinking: {type: "disabled"} |
Estándar |
| Think High | Razonamiento estructurado con presupuesto de tokens | thinking: {type: "enabled", budget_tokens: N} |
Estándar |
| Think Max | Razonamiento exhaustivo extendido | Prompt de sistema especial + thinking: {type: "max"} |
384K+ tokens |
Impacto en el rendimiento (V4-Pro):
| Benchmark | Non-Think | Think Max |
|---|---|---|
| LiveCodeBench | 56,8 % | 93,5 % |
| GPQA Diamond | 72,9 % | 90,1 % |
| Codeforces Rating | N/D | 3206 |
| HMMT 2026 Feb | 31,7 % | 95,2 % |
Capacidades clave
Programación
- Mejor puntuación Codeforces en modelo abierto: 3206
- LiveCodeBench: 93,5 % (Pass@1)
- SWE-bench Verified: 80,6 % (Resuelto)
- SWE-bench Pro: 55,4 % (Resuelto)
- SWE-bench Multilingual: 76,2 % (Resuelto)
- Integración nativa con Claude Code, OpenClaw, OpenCode
Razonamiento y conocimiento
- MMLU-Pro: 87,5 % (Think Max)
- GPQA Diamond: 90,1 % (Think Max)
- HLE: 37,7 % (Think Max)
- SimpleQA-Verified: 57,9 % (Think Max)
- MMMLU (multilingüe): 90,3 % (base)
Contexto largo
- MRCR 1M (aguja en un pajar): 83,5 % (Think Max) — supera a Gemini-3.1-Pro
- CorpusQA 1M: 62,0 % (Think Max) — mejor puntuación fuera de Claude
- LongBench-V2 (base): 51,5 %
Tareas agénticas
- Terminal Bench 2.0: 67,9 % (Think Max)
- SWE-bench Verified: 80,6 %
- MCPAtlas Public: 73,6 % (Think Max) — mejor puntuación en código abierto
- BrowseComp: 83,4 % (Think Max)
- Toolathlon: 51,8 % (Think Max)
Compatibilidad API
| Formato API | Soporte |
|---|---|
| OpenAI ChatCompletions | ✅ Compatibilidad total |
| Anthropic Messages API | ✅ Compatibilidad total |
| Llamadas a herramientas/funciones | ✅ Compatible |
| Streaming | ✅ Compatible |
Contenido de razonamiento (reasoning_content) |
✅ Disponible en modos Think High/Max |
Variantes del modelo disponibles
| Modelo | Tipo | Disponible en |
|---|---|---|
| DeepSeek-V4-Pro | Instruct (ajustado para chat) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Pro-Base | Base preentrenada | HuggingFace, ModelScope |
| DeepSeek-V4-Flash | Instruct (ajustado para chat) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Flash-Base | Base preentrenada | HuggingFace, ModelScope |
Integración agéntica
DeepSeek V4 se integra de forma nativa con:
- Claude Code — asistente de programación IA líder
- OpenClaw — framework de múltiples agentes de código abierto
- OpenCode — sistema de programación autónoma de código abierto
Ya está impulsando la propia infraestructura de programación agéntica interna de DeepSeek.
Métodos de acceso
- Web: chat.deepseek.com (Modo Instantáneo = Flash; Modo Experto = Pro)
- API: api.deepseek.com/v1 — actualizar el modelo a
deepseek-v4-proodeepseek-v4-flash - HuggingFace: Descargar pesos para despliegue local
- ModelScope: Descarga alternativa para acceso más rápido en China
- Proveedores de inferencia de terceros: Múltiples proveedores incluido Novita ofrecen acceso a la API V4
Migración de modelos anteriores
| Nombre del modelo antiguo | Ahora se redirige a | Se retira el |
|---|---|---|
| deepseek-chat | deepseek-v4-flash (sin razonamiento) | 24 de julio de 2026 |
| deepseek-reasoner | deepseek-v4-flash (con razonamiento) | 24 de julio de 2026 |
Uso recomendado por tipo de tarea
| Tarea | Config. recomendada | Justificación |
|---|---|---|
| Chat y preguntas | V4-Flash Non-think | Rápido y económico |
| Completado de código | V4-Flash Non-think | La velocidad es crítica |
| Diseño de algoritmos complejos | V4-Pro Think High | Equilibrio precisión/velocidad |
| Programación competitiva | V4-Pro Think Max | Máximo rendimiento |
| Resumen de documentos | V4-Flash Non-think | Carga de trabajo por volumen |
| Análisis profundo de documentos | V4-Pro Think High | Precisión en contexto extenso |
| Agentes autónomos | V4-Pro Think Max | Tareas complejas de múltiples pasos |
Plataformas nativas de IA como Framia.pro implementan enrutamiento inteligente entre estas configuraciones, adaptando la complejidad de la tarea a la variante y modo V4 adecuados para optimizar tanto la calidad como el coste en flujos de trabajo creativos.
Conclusión
DeepSeek V4 es la serie de modelos de pesos abiertos más capaz disponible a fecha de abril de 2026. Con 1,6 billones de parámetros (V4-Pro), licencia MIT, una ventana de contexto estándar de un millón de tokens, tres modos de razonamiento, capacidad de programación de nivel frontier y precios entre 10 y 35 veces inferiores a los de las alternativas propietarias, representa un cambio genuino en la accesibilidad de las capacidades de IA.