Ficha del Modelo DeepSeek V4: Referencia Técnica Completa para Desarrolladores

Ficha completa del modelo DeepSeek V4: especificaciones, referencia de API, precios, tabla de benchmarks, guía de despliegue local y notas técnicas para V4-Pro y V4-Flash.

by Framia

Ficha del Modelo DeepSeek V4: Referencia Técnica Completa para Desarrolladores

La ficha del modelo DeepSeek V4 reúne todo lo que un desarrollador necesita para comprender y desplegar la serie V4. Esta referencia cubre las especificaciones técnicas completas, los métodos de acceso, las limitaciones conocidas y las directrices de uso para V4-Pro y V4-Flash.


Identidad del modelo

Campo DeepSeek-V4-Pro DeepSeek-V4-Flash
ID del modelo deepseek-v4-pro deepseek-v4-flash
Desarrollador DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Fecha de lanzamiento 24 de abril de 2026 (Vista previa)
Licencia MIT License
Tipo de modelo Transformer solo-decodificador, MoE
Arquitectura Atención híbrida (CSA + HCA) + mHC
Parámetros totales 1,6 Bill. 284 000 M
Parámetros activos 49 000 M 13 000 M
Longitud de contexto 1 000 000 tokens 1 000 000 tokens
Precisión FP4 + FP8 mixto FP4 + FP8 mixto
Tamaño de descarga ~865 GB ~160 GB

Mapa de repositorios en HuggingFace

Repositorio Tipo URL
DeepSeek-V4-Pro Instruct (ajustado con RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base Base preentrenada huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash Instruct (ajustado con RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base Base preentrenada huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Referencia de API

Puntos de conexión

  • URL base: https://api.deepseek.com/v1
  • Completado de chat: POST /chat/completions
  • Formatos compatibles: OpenAI ChatCompletions API, Anthropic Messages API

Nombres de modelo (API)

  • deepseek-v4-pro — Modelo insignia con todas las capacidades
  • deepseek-v4-flash — Rápido y rentable

⚠️ Obsoleto (se retirará el 24 de julio de 2026): deepseek-chat, deepseek-reasoner

Precios

Modelo Entrada Salida
deepseek-v4-flash $0,14 / 1 M de tokens $0,28 / 1 M de tokens
deepseek-v4-pro $1,74 / 1 M de tokens $3,48 / 1 M de tokens

Detalles de la arquitectura

Sistema de atención híbrida

Tipo de capa Mecanismo Propósito
Capas de tokens recientes Atención estándar Máxima fidelidad para el contexto cercano
Capas de tokens a distancia media Compressed Sparse Attention (CSA) Acceso eficiente al contexto a distancia moderada
Capas de tokens a larga distancia Heavily Compressed Attention (HCA) Representación compacta del historial lejano

Eficiencia frente a V3.2 con contexto de 1 M:

  • FLOPs: 27 % de V3.2 (reducción del 73 %)
  • Caché KV: 10 % de V3.2 (reducción del 90 %)

Innovaciones de entrenamiento

Innovación Descripción
Optimizador Muon (reemplaza a AdamW)
Conexiones residuales mHC (Manifold-Constrained Hyper-Connections)
Datos de preentrenamiento 32 Bill.+ tokens diversos
Post-entrenamiento Etapa 1 Especialización de expertos mediante SFT + RL (GRPO)
Post-entrenamiento Etapa 2 Consolidación unificada mediante destilación on-policy

Modos de inferencia

Modo Parámetro API Presupuesto de razonamiento Requisito de contexto
Sin razonamiento "thinking": {"type": "disabled"} Ninguno Estándar
Razonamiento alto "thinking": {"type": "enabled", "budget_tokens": N} Definido por el usuario Estándar
Razonamiento máximo Prompt de sistema especial + "thinking": {"type": "max"} Extendido 384K+ tokens recomendados

Parámetros de muestreo recomendados

{
  "temperature": 1.0,
  "top_p": 1.0
}

Referencia de benchmarks

V4-Pro-Max frente a los modelos más avanzados

Benchmark V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87,5 % 89,1 % 87,5 % 91,0 %
GPQA Diamond 90,1 % 91,3 % 93,0 % 94,3 %
HLE 37,7 % 40,0 % 39,8 % 44,4 %
LiveCodeBench 93,5 % 88,8 % N/D 91,7 %
Codeforces 3206 N/D 3168 3052
SWE-bench Verified 80,6 % 80,8 % N/D 80,6 %
SWE-bench Pro 55,4 % 57,3 % 57,7 % 54,2 %
Terminal Bench 2.0 67,9 % 65,4 % 75,1 % 68,5 %
MRCR 1M 83,5 % 92,9 % N/D 76,3 %
CorpusQA 1M 62,0 % 71,7 % N/D 53,8 %

Referencia de despliegue local

Configuración Almacenamiento VRAM Configuración GPU mínima
V4-Flash (completo) 160 GB ~160 GB 2× H100 80GB
V4-Flash (cuantización Q4) ~80 GB ~80 GB RTX 5090
V4-Pro (completo) 865 GB ~865 GB 16× H100 80GB
V4-Pro (cuantización Q4) ~200–400 GB ~200–400 GB 4–8× H100 80GB

Plantilla de chat

DeepSeek V4 no utiliza la plantilla de chat Jinja estándar de HuggingFace. Use los scripts de codificación personalizados en la carpeta encoding/ de cada repositorio.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Opciones: "no_think", "thinking", "max_thinking"

Limitaciones conocidas

  • Solo texto en el lanzamiento: No hay comprensión nativa de imagen, audio o vídeo en la versión de vista previa de abril de 2026
  • Estado de vista previa: Pueden existir casos extremos; DeepSeek recomienda seguir las cuentas oficiales para obtener actualizaciones
  • Requisito de contexto de Think Max: Se requiere una ventana de contexto de 384K+ tokens para el mejor rendimiento en modo Think Max
  • Descarga de gran tamaño: V4-Pro con 865 GB requiere un ancho de banda y almacenamiento considerable para el despliegue local
  • Plantilla de chat: La codificación no estándar requiere usar los scripts proporcionados por el repositorio en lugar de las herramientas de pipeline estándar de HuggingFace

Contacto y soporte

  • Twitter oficial: @deepseek_ai
  • GitHub: github.com/deepseek-ai
  • HuggingFace: huggingface.co/deepseek-ai
  • Documentación de API: api-docs.deepseek.com
  • Correo electrónico: service@deepseek.com
  • Chat web: chat.deepseek.com

Para los desarrolladores que trabajan en plataformas como Framia.pro que integran las capacidades de DeepSeek V4, esta ficha de modelo constituye la referencia técnica de autoridad para todas las decisiones de integración.


Cita

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}