Ficha del Modelo DeepSeek V4: Referencia Técnica Completa (2026)

Ficha completa del modelo DeepSeek V4: especificaciones, referencia de API, precios, tabla de benchmarks, guía de despliegue local y notas técnicas para V4-Pro y V4-Flash.

Ficha del Modelo DeepSeek V4: Referencia Técnica Completa para Desarrolladores

La ficha del modelo DeepSeek V4 reúne todo lo que un desarrollador necesita para comprender y desplegar la serie V4. Esta referencia cubre las especificaciones técnicas completas, los métodos de acceso, las limitaciones conocidas y las directrices de uso para V4-Pro y V4-Flash.

Identidad del modelo

Campo	DeepSeek-V4-Pro	DeepSeek-V4-Flash
ID del modelo	`deepseek-v4-pro`	`deepseek-v4-flash`
Desarrollador	DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Fecha de lanzamiento	24 de abril de 2026 (Vista previa)
Licencia	MIT License
Tipo de modelo	Transformer solo-decodificador, MoE
Arquitectura	Atención híbrida (CSA + HCA) + mHC
Parámetros totales	1,6 Bill.	284 000 M
Parámetros activos	49 000 M	13 000 M
Longitud de contexto	1 000 000 tokens	1 000 000 tokens
Precisión	FP4 + FP8 mixto	FP4 + FP8 mixto
Tamaño de descarga	~865 GB	~160 GB

Mapa de repositorios en HuggingFace

Repositorio	Tipo	URL
DeepSeek-V4-Pro	Instruct (ajustado con RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	Base preentrenada	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	Instruct (ajustado con RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	Base preentrenada	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Referencia de API

Puntos de conexión

URL base: https://api.deepseek.com/v1
Completado de chat: POST /chat/completions
Formatos compatibles: OpenAI ChatCompletions API, Anthropic Messages API

Nombres de modelo (API)

deepseek-v4-pro — Modelo insignia con todas las capacidades
deepseek-v4-flash — Rápido y rentable

⚠️ Obsoleto (se retirará el 24 de julio de 2026): deepseek-chat, deepseek-reasoner

Precios

Modelo	Entrada	Salida
deepseek-v4-flash	$0,14 / 1 M de tokens	$0,28 / 1 M de tokens
deepseek-v4-pro	$1,74 / 1 M de tokens	$3,48 / 1 M de tokens

Detalles de la arquitectura

Sistema de atención híbrida

Tipo de capa	Mecanismo	Propósito
Capas de tokens recientes	Atención estándar	Máxima fidelidad para el contexto cercano
Capas de tokens a distancia media	Compressed Sparse Attention (CSA)	Acceso eficiente al contexto a distancia moderada
Capas de tokens a larga distancia	Heavily Compressed Attention (HCA)	Representación compacta del historial lejano

Eficiencia frente a V3.2 con contexto de 1 M:

FLOPs: 27 % de V3.2 (reducción del 73 %)
Caché KV: 10 % de V3.2 (reducción del 90 %)

Innovaciones de entrenamiento

Innovación	Descripción
Optimizador	Muon (reemplaza a AdamW)
Conexiones residuales	mHC (Manifold-Constrained Hyper-Connections)
Datos de preentrenamiento	32 Bill.+ tokens diversos
Post-entrenamiento Etapa 1	Especialización de expertos mediante SFT + RL (GRPO)
Post-entrenamiento Etapa 2	Consolidación unificada mediante destilación on-policy

Modos de inferencia

Modo	Parámetro API	Presupuesto de razonamiento	Requisito de contexto
Sin razonamiento	`"thinking": {"type": "disabled"}`	Ninguno	Estándar
Razonamiento alto	`"thinking": {"type": "enabled", "budget_tokens": N}`	Definido por el usuario	Estándar
Razonamiento máximo	Prompt de sistema especial + `"thinking": {"type": "max"}`	Extendido	384K+ tokens recomendados

Parámetros de muestreo recomendados

{
  "temperature": 1.0,
  "top_p": 1.0
}

Referencia de benchmarks

V4-Pro-Max frente a los modelos más avanzados

Benchmark	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87,5 %	89,1 %	87,5 %	91,0 %
GPQA Diamond	90,1 %	91,3 %	93,0 %	94,3 %
HLE	37,7 %	40,0 %	39,8 %	44,4 %
LiveCodeBench	93,5 %	88,8 %	N/D	91,7 %
Codeforces	3206	N/D	3168	3052
SWE-bench Verified	80,6 %	80,8 %	N/D	80,6 %
SWE-bench Pro	55,4 %	57,3 %	57,7 %	54,2 %
Terminal Bench 2.0	67,9 %	65,4 %	75,1 %	68,5 %
MRCR 1M	83,5 %	92,9 %	N/D	76,3 %
CorpusQA 1M	62,0 %	71,7 %	N/D	53,8 %

Referencia de despliegue local

Configuración	Almacenamiento	VRAM	Configuración GPU mínima
V4-Flash (completo)	160 GB	~160 GB	2× H100 80GB
V4-Flash (cuantización Q4)	~80 GB	~80 GB	RTX 5090
V4-Pro (completo)	865 GB	~865 GB	16× H100 80GB
V4-Pro (cuantización Q4)	~200–400 GB	~200–400 GB	4–8× H100 80GB

Plantilla de chat

DeepSeek V4 no utiliza la plantilla de chat Jinja estándar de HuggingFace. Use los scripts de codificación personalizados en la carpeta encoding/ de cada repositorio.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Opciones: "no_think", "thinking", "max_thinking"

Limitaciones conocidas

Solo texto en el lanzamiento: No hay comprensión nativa de imagen, audio o vídeo en la versión de vista previa de abril de 2026
Estado de vista previa: Pueden existir casos extremos; DeepSeek recomienda seguir las cuentas oficiales para obtener actualizaciones
Requisito de contexto de Think Max: Se requiere una ventana de contexto de 384K+ tokens para el mejor rendimiento en modo Think Max
Descarga de gran tamaño: V4-Pro con 865 GB requiere un ancho de banda y almacenamiento considerable para el despliegue local
Plantilla de chat: La codificación no estándar requiere usar los scripts proporcionados por el repositorio en lugar de las herramientas de pipeline estándar de HuggingFace

Contacto y soporte

Twitter oficial: @deepseek_ai
GitHub: github.com/deepseek-ai
HuggingFace: huggingface.co/deepseek-ai
Documentación de API: api-docs.deepseek.com
Correo electrónico: service@deepseek.com
Chat web: chat.deepseek.com

Para los desarrolladores que trabajan en plataformas como Framia.pro que integran las capacidades de DeepSeek V4, esta ficha de modelo constituye la referencia técnica de autoridad para todas las decisiones de integración.

Cita

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}