DeepSeek V4: Especificaciones Completas, Funciones y Capacidades del Modelo de IA

Guía completa del modelo de IA DeepSeek V4: especificaciones de Pro y Flash, arquitectura, benchmarks, precios, compatibilidad API y recomendaciones por caso de uso.

by Framia

DeepSeek V4: Especificaciones Completas, Funciones y Capacidades del Modelo de IA

Este artículo reúne todos los detalles clave sobre las especificaciones, funciones y capacidades de DeepSeek V4 en una referencia completa — la guía definitiva para quienes evalúan, integran o estudian la serie V4.


Especificaciones principales

DeepSeek-V4-Pro

Especificación Detalle
Arquitectura Mixture of Experts (MoE) + Atención híbrida (CSA + HCA) + mHC
Parámetros totales 1,6 billones
Parámetros activos (por token) 49.000 millones
Longitud de contexto 1.000.000 tokens (por defecto)
Datos de preentrenamiento Más de 32 billones de tokens variados
Licencia MIT
Fecha de lanzamiento 24 de abril de 2026 (vista previa)
Precisión FP4 (expertos) + FP8 (otros pesos) mixto
Tamaño de descarga ~865 GB
ID de HuggingFace deepseek-ai/DeepSeek-V4-Pro
Nombre del modelo API deepseek-v4-pro
Precio de entrada API 1,74 $ por millón de tokens
Precio de salida API 3,48 $ por millón de tokens

DeepSeek-V4-Flash

Especificación Detalle
Arquitectura MoE + Atención híbrida (CSA + HCA) + mHC
Parámetros totales 284.000 millones
Parámetros activos (por token) 13.000 millones
Longitud de contexto 1.000.000 tokens (por defecto)
Datos de preentrenamiento Más de 32 billones de tokens variados
Licencia MIT
Fecha de lanzamiento 24 de abril de 2026 (vista previa)
Precisión FP4 (expertos) + FP8 (otros pesos) mixto
Tamaño de descarga ~160 GB
ID de HuggingFace deepseek-ai/DeepSeek-V4-Flash
Nombre del modelo API deepseek-v4-flash
Precio de entrada API 0,14 $ por millón de tokens
Precio de salida API 0,28 $ por millón de tokens

Análisis detallado de la arquitectura

Atención híbrida: CSA + HCA

La innovación fundamental de la arquitectura V4 combina dos mecanismos de atención complementarios:

Compressed Sparse Attention (CSA): Aplica compresión por token a los pares clave-valor para contextos moderadamente distantes, manteniendo la fidelidad y reduciendo los requisitos de memoria y cómputo.

Heavily Compressed Attention (HCA): Aplica compresión agresiva a tokens muy distantes, almacenando representaciones de resumen compactas que permiten al modelo "recordar" información en todo el contexto de un millón de tokens sin el overhead completo de atención.

Efecto combinado en contexto de 1 millón de tokens frente a V3.2:

  • FLOPs de inferencia: reducidos al 27 % de V3.2
  • Memoria de caché KV: reducida al 10 % de V3.2

Manifold-Constrained Hyper-Connections (mHC)

Sustituye las conexiones residuales estándar en toda la red. Al restringir las actualizaciones de pesos a una variedad riemanniana, mHC refuerza la propagación de señales a través de las cientos de capas transformer de V4-Pro, permitiendo un entrenamiento estable con 1,6 billones de parámetros.

Optimizador Muon

El optimizador Muon (Momentum + Ortogonalización) reemplaza a AdamW. Al ortogonalizar las actualizaciones de gradientes:

  • Elimina la redundancia entre pasos de actualización sucesivos
  • Logra una convergencia más rápida (más aprendizaje por paso de entrenamiento)
  • Ofrece mayor estabilidad a escala de preentrenamiento con más de 32 billones de tokens

Tres modos de razonamiento

Modo Descripción Config. API Necesidades de contexto
Non-think Respuesta directa, sin cadena de pensamiento thinking: {type: "disabled"} Estándar
Think High Razonamiento estructurado con presupuesto de tokens thinking: {type: "enabled", budget_tokens: N} Estándar
Think Max Razonamiento exhaustivo extendido Prompt de sistema especial + thinking: {type: "max"} 384K+ tokens

Impacto en el rendimiento (V4-Pro):

Benchmark Non-Think Think Max
LiveCodeBench 56,8 % 93,5 %
GPQA Diamond 72,9 % 90,1 %
Codeforces Rating N/D 3206
HMMT 2026 Feb 31,7 % 95,2 %

Capacidades clave

Programación

  • Mejor puntuación Codeforces en modelo abierto: 3206
  • LiveCodeBench: 93,5 % (Pass@1)
  • SWE-bench Verified: 80,6 % (Resuelto)
  • SWE-bench Pro: 55,4 % (Resuelto)
  • SWE-bench Multilingual: 76,2 % (Resuelto)
  • Integración nativa con Claude Code, OpenClaw, OpenCode

Razonamiento y conocimiento

  • MMLU-Pro: 87,5 % (Think Max)
  • GPQA Diamond: 90,1 % (Think Max)
  • HLE: 37,7 % (Think Max)
  • SimpleQA-Verified: 57,9 % (Think Max)
  • MMMLU (multilingüe): 90,3 % (base)

Contexto largo

  • MRCR 1M (aguja en un pajar): 83,5 % (Think Max) — supera a Gemini-3.1-Pro
  • CorpusQA 1M: 62,0 % (Think Max) — mejor puntuación fuera de Claude
  • LongBench-V2 (base): 51,5 %

Tareas agénticas

  • Terminal Bench 2.0: 67,9 % (Think Max)
  • SWE-bench Verified: 80,6 %
  • MCPAtlas Public: 73,6 % (Think Max) — mejor puntuación en código abierto
  • BrowseComp: 83,4 % (Think Max)
  • Toolathlon: 51,8 % (Think Max)

Compatibilidad API

Formato API Soporte
OpenAI ChatCompletions ✅ Compatibilidad total
Anthropic Messages API ✅ Compatibilidad total
Llamadas a herramientas/funciones ✅ Compatible
Streaming ✅ Compatible
Contenido de razonamiento (reasoning_content) ✅ Disponible en modos Think High/Max

Variantes del modelo disponibles

Modelo Tipo Disponible en
DeepSeek-V4-Pro Instruct (ajustado para chat) HuggingFace, ModelScope, API
DeepSeek-V4-Pro-Base Base preentrenada HuggingFace, ModelScope
DeepSeek-V4-Flash Instruct (ajustado para chat) HuggingFace, ModelScope, API
DeepSeek-V4-Flash-Base Base preentrenada HuggingFace, ModelScope

Integración agéntica

DeepSeek V4 se integra de forma nativa con:

  • Claude Code — asistente de programación IA líder
  • OpenClaw — framework de múltiples agentes de código abierto
  • OpenCode — sistema de programación autónoma de código abierto

Ya está impulsando la propia infraestructura de programación agéntica interna de DeepSeek.


Métodos de acceso

  1. Web: chat.deepseek.com (Modo Instantáneo = Flash; Modo Experto = Pro)
  2. API: api.deepseek.com/v1 — actualizar el modelo a deepseek-v4-pro o deepseek-v4-flash
  3. HuggingFace: Descargar pesos para despliegue local
  4. ModelScope: Descarga alternativa para acceso más rápido en China
  5. Proveedores de inferencia de terceros: Múltiples proveedores incluido Novita ofrecen acceso a la API V4

Migración de modelos anteriores

Nombre del modelo antiguo Ahora se redirige a Se retira el
deepseek-chat deepseek-v4-flash (sin razonamiento) 24 de julio de 2026
deepseek-reasoner deepseek-v4-flash (con razonamiento) 24 de julio de 2026

Uso recomendado por tipo de tarea

Tarea Config. recomendada Justificación
Chat y preguntas V4-Flash Non-think Rápido y económico
Completado de código V4-Flash Non-think La velocidad es crítica
Diseño de algoritmos complejos V4-Pro Think High Equilibrio precisión/velocidad
Programación competitiva V4-Pro Think Max Máximo rendimiento
Resumen de documentos V4-Flash Non-think Carga de trabajo por volumen
Análisis profundo de documentos V4-Pro Think High Precisión en contexto extenso
Agentes autónomos V4-Pro Think Max Tareas complejas de múltiples pasos

Plataformas nativas de IA como Framia.pro implementan enrutamiento inteligente entre estas configuraciones, adaptando la complejidad de la tarea a la variante y modo V4 adecuados para optimizar tanto la calidad como el coste en flujos de trabajo creativos.


Conclusión

DeepSeek V4 es la serie de modelos de pesos abiertos más capaz disponible a fecha de abril de 2026. Con 1,6 billones de parámetros (V4-Pro), licencia MIT, una ventana de contexto estándar de un millón de tokens, tres modos de razonamiento, capacidad de programación de nivel frontier y precios entre 10 y 35 veces inferiores a los de las alternativas propietarias, representa un cambio genuino en la accesibilidad de las capacidades de IA.