Modos de Razonamiento de DeepSeek V4: Cómo Funcionan Non-Think, Think High y Think Max

DeepSeek V4 ofrece tres modos de razonamiento: Non-Think, Think High y Think Max. Descubre cómo funciona cada uno, cuándo usarlos y su impacto en rendimiento y coste.

by Framia

Modos de Razonamiento de DeepSeek V4: Cómo Funcionan Non-Think, Think High y Think Max

Una de las características más distintivas de DeepSeek V4 es su sistema de razonamiento de tres niveles. En lugar de ofrecer simplemente «razonamiento» o «sin razonamiento» como una elección binaria, V4 te permite ajustar con precisión cuánto esfuerzo cognitivo deseas que aplique el modelo, desde respuestas instantáneas hasta un razonamiento en cadena de pensamiento (chain-of-thought) profundo y extendido.


Los Tres Modos de un Vistazo

Modo Descripción Velocidad Precisión Ideal Para
Non-Think Respuesta directa, sin cadena de pensamiento Más rápido Base Tareas cotidianas, preguntas simples
Think High Razonamiento en cadena de pensamiento controlado Moderado Alta Problemas complejos, planificación
Think Max Razonamiento extendido y exhaustivo Más lento Máxima Matemáticas de competición, programación avanzada

Los tres modos están disponibles tanto en V4-Pro como en V4-Flash.


Modo 1: Non-Think

Non-Think es el modo más rápido. El modelo genera respuestas de forma intuitiva, sin una cadena de pensamiento explícita. Esto equivale al funcionamiento de los LLM anteriores, aunque sigue siendo notablemente capaz gracias a la escala de V4.

Formato de respuesta: La salida comienza con una etiqueta </think> vacía (que indica que no hay traza de razonamiento), seguida directamente del resumen o la respuesta.

Ideal para:

  • Interfaces conversacionales en tiempo real
  • Tareas simples de clasificación o extracción
  • Autocompletado y sugerencias de baja latencia
  • Procesamiento por lotes de gran volumen donde el coste y la velocidad son prioritarios

Configuración de la API:

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "What's the capital of France?"}],
    extra_body={"thinking": {"type": "disabled"}}
)

Impacto en benchmarks (V4-Pro Non-Think vs. Think Max):

Benchmark Non-Think Think Max
GPQA Diamond 72,9 % 90,1 %
LiveCodeBench 56,8 % 93,5 %
Codeforces Rating N/A 3206
HMMT 2026 Feb 31,7 % 95,2 %

El salto de Non-Think a Think Max es dramático en tareas de razonamiento difícil: hasta 60 puntos porcentuales en programación competitiva.


Modo 2: Think High

Think High activa un proceso de razonamiento en cadena de pensamiento controlado. El modelo «reflexiona» explícitamente sobre el problema antes de responder, pero con un presupuesto de pensamiento acotado que previene costes de inferencia descontrolados.

Formato de respuesta: La salida incluye un bloque <think> con la traza de razonamiento, seguido de </think> y el resumen final.

Ideal para:

  • Resolución de problemas complejos donde la precisión importa, pero la velocidad sigue siendo relevante
  • Tareas de planificación y razonamiento de múltiples pasos
  • Depuración y análisis de código
  • Síntesis de investigación y tareas de comparación

Configuración de la API:

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
    extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)

# Acceder a la traza de razonamiento
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content

El parámetro budget_tokens permite controlar el presupuesto de tokens asignado a la traza de razonamiento.


Modo 3: Think Max

Think Max lleva a V4 a sus límites absolutos de razonamiento. Este modo utiliza un prompt de sistema especial que instruye al modelo para razonar de la manera más profunda y exhaustiva posible antes de responder.

Formato de respuesta: Prompt de sistema especial + traza de razonamiento <think> extendida + respuesta final </think>.

Requisito clave: DeepSeek recomienda una ventana de contexto mínima de 384K tokens para Think Max, ya que la traza de razonamiento puede ser extremadamente larga en problemas difíciles.

Ideal para:

  • Matemáticas de competición (IMO, HMMT, Putnam)
  • Desafíos de ingeniería de software de vanguardia
  • Generación y análisis de hipótesis científicas
  • Cualquier tarea donde obtener la respuesta correcta sea más importante que la velocidad o el coste

Configuración de la API (esquema):

THINK_MAX_SYSTEM_PROMPT = "..." # Usar el prompt exacto de api-docs.deepseek.com/guides/thinking_mode

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
        {"role": "user", "content": "Prove that there are infinitely many primes."}
    ],
    max_tokens=32768,
    extra_body={"thinking": {"type": "max"}}
)

Benchmark: El Impacto del Modo de Razonamiento

La siguiente tabla compara V4-Flash en los tres modos — una demostración llamativa de cómo la profundidad del razonamiento afecta al rendimiento:

Benchmark Flash Non-Think Flash Think High Flash Think Max
MMLU-Pro 83,0 % 86,4 % 86,2 %
GPQA Diamond 71,2 % 87,4 % 88,1 %
HLE 8,1 % 29,4 % 34,8 %
LiveCodeBench 55,2 % 88,4 % 91,6 %
Codeforces Rating N/A 2816 3052
HMMT 2026 Feb 40,8 % 91,9 % 94,8 %

Incluso V4-Flash en modo Think Max alcanza Codeforces 3052, siendo competitivo con Gemini-3.1-Pro y a solo 154 puntos de V4-Pro-Max. Esto demuestra que la arquitectura de razonamiento es fundamental para el salto en capacidad del modelo.


Cuándo Tiene Sentido Económicamente Cada Modo

Dado que Think Max genera trazas de razonamiento más largas, consume más tokens de salida:

Modo Tokens aprox. por respuesta Coste por consulta (V4-Flash)
Non-Think ~200-500 ~$0,0001
Think High ~2.000-8.000 ~$0,0010
Think Max ~8.000-50.000 ~$0,005-$0,014

Incluso en modo Think Max, V4-Flash resulta excepcionalmente asequible. Un problema de razonamiento exigente podría costar $0,01-$0,05 por consulta, una fracción de lo que cobran los modelos propietarios por respuestas básicas.


Conversaciones Multi-turno y Cambio de Modo

Puedes cambiar el modo de razonamiento entre los turnos de una conversación multi-turno. Por ejemplo:

  • Usa Non-Think para intercambios informales y turnos de construcción de contexto
  • Cambia a Think High cuando surja una pregunta compleja
  • Escala a Think Max para las tareas más exigentes

Plataformas como Framia.pro, que orquestan flujos de trabajo creativos de IA en múltiples pasos, pueden aprovechar esta jerarquía — usando respuestas rápidas Non-Think para los pasos rutinarios y escalando a Think Max cuando una tarea requiere las capacidades más profundas del modelo.


Conclusión

Los tres modos de razonamiento de DeepSeek V4 ofrecen a desarrolladores y usuarios un nivel de control sin precedentes sobre el equilibrio entre rendimiento, coste y latencia. Non-Think ofrece respuestas instantáneas; Think High equilibra velocidad y precisión; Think Max lleva al modelo a sus límites absolutos. El resultado es un único modelo capaz de servir desde el autocompletado más trivial hasta el razonamiento matemático de nivel competición, todo dentro de la misma API.