DeepSeek V4: Guía de Modos de Razonamiento Non-Think, Think High y Think Max

DeepSeek V4 ofrece tres modos de razonamiento: Non-Think, Think High y Think Max. Descubre cómo funciona cada uno, cuándo usarlos y su impacto en rendimiento y coste.

Modos de Razonamiento de DeepSeek V4: Cómo Funcionan Non-Think, Think High y Think Max

Una de las características más distintivas de DeepSeek V4 es su sistema de razonamiento de tres niveles. En lugar de ofrecer simplemente «razonamiento» o «sin razonamiento» como una elección binaria, V4 te permite ajustar con precisión cuánto esfuerzo cognitivo deseas que aplique el modelo, desde respuestas instantáneas hasta un razonamiento en cadena de pensamiento (chain-of-thought) profundo y extendido.

Los Tres Modos de un Vistazo

Modo	Descripción	Velocidad	Precisión	Ideal Para
Non-Think	Respuesta directa, sin cadena de pensamiento	Más rápido	Base	Tareas cotidianas, preguntas simples
Think High	Razonamiento en cadena de pensamiento controlado	Moderado	Alta	Problemas complejos, planificación
Think Max	Razonamiento extendido y exhaustivo	Más lento	Máxima	Matemáticas de competición, programación avanzada

Los tres modos están disponibles tanto en V4-Pro como en V4-Flash.

Modo 1: Non-Think

Non-Think es el modo más rápido. El modelo genera respuestas de forma intuitiva, sin una cadena de pensamiento explícita. Esto equivale al funcionamiento de los LLM anteriores, aunque sigue siendo notablemente capaz gracias a la escala de V4.

Formato de respuesta: La salida comienza con una etiqueta </think> vacía (que indica que no hay traza de razonamiento), seguida directamente del resumen o la respuesta.

Ideal para:

Interfaces conversacionales en tiempo real
Tareas simples de clasificación o extracción
Autocompletado y sugerencias de baja latencia
Procesamiento por lotes de gran volumen donde el coste y la velocidad son prioritarios

Configuración de la API:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "What's the capital of France?"}],
    extra_body={"thinking": {"type": "disabled"}}
)

Impacto en benchmarks (V4-Pro Non-Think vs. Think Max):

Benchmark	Non-Think	Think Max
GPQA Diamond	72,9 %	90,1 %
LiveCodeBench	56,8 %	93,5 %
Codeforces Rating	N/A	3206
HMMT 2026 Feb	31,7 %	95,2 %

El salto de Non-Think a Think Max es dramático en tareas de razonamiento difícil: hasta 60 puntos porcentuales en programación competitiva.

Modo 2: Think High

Think High activa un proceso de razonamiento en cadena de pensamiento controlado. El modelo «reflexiona» explícitamente sobre el problema antes de responder, pero con un presupuesto de pensamiento acotado que previene costes de inferencia descontrolados.

Formato de respuesta: La salida incluye un bloque <think> con la traza de razonamiento, seguido de </think> y el resumen final.

Ideal para:

Resolución de problemas complejos donde la precisión importa, pero la velocidad sigue siendo relevante
Tareas de planificación y razonamiento de múltiples pasos
Depuración y análisis de código
Síntesis de investigación y tareas de comparación

Configuración de la API:

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
    extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)

# Acceder a la traza de razonamiento
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content

El parámetro budget_tokens permite controlar el presupuesto de tokens asignado a la traza de razonamiento.

Modo 3: Think Max

Think Max lleva a V4 a sus límites absolutos de razonamiento. Este modo utiliza un prompt de sistema especial que instruye al modelo para razonar de la manera más profunda y exhaustiva posible antes de responder.

Formato de respuesta: Prompt de sistema especial + traza de razonamiento <think> extendida + respuesta final </think>.

Requisito clave: DeepSeek recomienda una ventana de contexto mínima de 384K tokens para Think Max, ya que la traza de razonamiento puede ser extremadamente larga en problemas difíciles.

Ideal para:

Matemáticas de competición (IMO, HMMT, Putnam)
Desafíos de ingeniería de software de vanguardia
Generación y análisis de hipótesis científicas
Cualquier tarea donde obtener la respuesta correcta sea más importante que la velocidad o el coste

Configuración de la API (esquema):

THINK_MAX_SYSTEM_PROMPT = "..." # Usar el prompt exacto de api-docs.deepseek.com/guides/thinking_mode

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
        {"role": "user", "content": "Prove that there are infinitely many primes."}
    ],
    max_tokens=32768,
    extra_body={"thinking": {"type": "max"}}
)

Benchmark: El Impacto del Modo de Razonamiento

La siguiente tabla compara V4-Flash en los tres modos — una demostración llamativa de cómo la profundidad del razonamiento afecta al rendimiento:

Benchmark	Flash Non-Think	Flash Think High	Flash Think Max
MMLU-Pro	83,0 %	86,4 %	86,2 %
GPQA Diamond	71,2 %	87,4 %	88,1 %
HLE	8,1 %	29,4 %	34,8 %
LiveCodeBench	55,2 %	88,4 %	91,6 %
Codeforces Rating	N/A	2816	3052
HMMT 2026 Feb	40,8 %	91,9 %	94,8 %

Incluso V4-Flash en modo Think Max alcanza Codeforces 3052, siendo competitivo con Gemini-3.1-Pro y a solo 154 puntos de V4-Pro-Max. Esto demuestra que la arquitectura de razonamiento es fundamental para el salto en capacidad del modelo.

Cuándo Tiene Sentido Económicamente Cada Modo

Dado que Think Max genera trazas de razonamiento más largas, consume más tokens de salida:

Modo	Tokens aprox. por respuesta	Coste por consulta (V4-Flash)
Non-Think	~200-500	~$0,0001
Think High	~2.000-8.000	~$0,0010
Think Max	~8.000-50.000	~$0,005-$0,014

Incluso en modo Think Max, V4-Flash resulta excepcionalmente asequible. Un problema de razonamiento exigente podría costar $0,01-$0,05 por consulta, una fracción de lo que cobran los modelos propietarios por respuestas básicas.

Conversaciones Multi-turno y Cambio de Modo

Puedes cambiar el modo de razonamiento entre los turnos de una conversación multi-turno. Por ejemplo:

Usa Non-Think para intercambios informales y turnos de construcción de contexto
Cambia a Think High cuando surja una pregunta compleja
Escala a Think Max para las tareas más exigentes

Plataformas como Framia.pro, que orquestan flujos de trabajo creativos de IA en múltiples pasos, pueden aprovechar esta jerarquía — usando respuestas rápidas Non-Think para los pasos rutinarios y escalando a Think Max cuando una tarea requiere las capacidades más profundas del modelo.

Conclusión

Los tres modos de razonamiento de DeepSeek V4 ofrecen a desarrolladores y usuarios un nivel de control sin precedentes sobre el equilibrio entre rendimiento, coste y latencia. Non-Think ofrece respuestas instantáneas; Think High equilibra velocidad y precisión; Think Max lleva al modelo a sus límites absolutos. El resultado es un único modelo capaz de servir desde el autocompletado más trivial hasta el razonamiento matemático de nivel competición, todo dentro de la misma API.