Modos de Razonamiento de DeepSeek V4: Cómo Funcionan Non-Think, Think High y Think Max
Una de las características más distintivas de DeepSeek V4 es su sistema de razonamiento de tres niveles. En lugar de ofrecer simplemente «razonamiento» o «sin razonamiento» como una elección binaria, V4 te permite ajustar con precisión cuánto esfuerzo cognitivo deseas que aplique el modelo, desde respuestas instantáneas hasta un razonamiento en cadena de pensamiento (chain-of-thought) profundo y extendido.
Los Tres Modos de un Vistazo
| Modo | Descripción | Velocidad | Precisión | Ideal Para |
|---|---|---|---|---|
| Non-Think | Respuesta directa, sin cadena de pensamiento | Más rápido | Base | Tareas cotidianas, preguntas simples |
| Think High | Razonamiento en cadena de pensamiento controlado | Moderado | Alta | Problemas complejos, planificación |
| Think Max | Razonamiento extendido y exhaustivo | Más lento | Máxima | Matemáticas de competición, programación avanzada |
Los tres modos están disponibles tanto en V4-Pro como en V4-Flash.
Modo 1: Non-Think
Non-Think es el modo más rápido. El modelo genera respuestas de forma intuitiva, sin una cadena de pensamiento explícita. Esto equivale al funcionamiento de los LLM anteriores, aunque sigue siendo notablemente capaz gracias a la escala de V4.
Formato de respuesta: La salida comienza con una etiqueta </think> vacía (que indica que no hay traza de razonamiento), seguida directamente del resumen o la respuesta.
Ideal para:
- Interfaces conversacionales en tiempo real
- Tareas simples de clasificación o extracción
- Autocompletado y sugerencias de baja latencia
- Procesamiento por lotes de gran volumen donde el coste y la velocidad son prioritarios
Configuración de la API:
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "What's the capital of France?"}],
extra_body={"thinking": {"type": "disabled"}}
)
Impacto en benchmarks (V4-Pro Non-Think vs. Think Max):
| Benchmark | Non-Think | Think Max |
|---|---|---|
| GPQA Diamond | 72,9 % | 90,1 % |
| LiveCodeBench | 56,8 % | 93,5 % |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31,7 % | 95,2 % |
El salto de Non-Think a Think Max es dramático en tareas de razonamiento difícil: hasta 60 puntos porcentuales en programación competitiva.
Modo 2: Think High
Think High activa un proceso de razonamiento en cadena de pensamiento controlado. El modelo «reflexiona» explícitamente sobre el problema antes de responder, pero con un presupuesto de pensamiento acotado que previene costes de inferencia descontrolados.
Formato de respuesta: La salida incluye un bloque <think> con la traza de razonamiento, seguido de </think> y el resumen final.
Ideal para:
- Resolución de problemas complejos donde la precisión importa, pero la velocidad sigue siendo relevante
- Tareas de planificación y razonamiento de múltiples pasos
- Depuración y análisis de código
- Síntesis de investigación y tareas de comparación
Configuración de la API:
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)
# Acceder a la traza de razonamiento
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
El parámetro budget_tokens permite controlar el presupuesto de tokens asignado a la traza de razonamiento.
Modo 3: Think Max
Think Max lleva a V4 a sus límites absolutos de razonamiento. Este modo utiliza un prompt de sistema especial que instruye al modelo para razonar de la manera más profunda y exhaustiva posible antes de responder.
Formato de respuesta: Prompt de sistema especial + traza de razonamiento <think> extendida + respuesta final </think>.
Requisito clave: DeepSeek recomienda una ventana de contexto mínima de 384K tokens para Think Max, ya que la traza de razonamiento puede ser extremadamente larga en problemas difíciles.
Ideal para:
- Matemáticas de competición (IMO, HMMT, Putnam)
- Desafíos de ingeniería de software de vanguardia
- Generación y análisis de hipótesis científicas
- Cualquier tarea donde obtener la respuesta correcta sea más importante que la velocidad o el coste
Configuración de la API (esquema):
THINK_MAX_SYSTEM_PROMPT = "..." # Usar el prompt exacto de api-docs.deepseek.com/guides/thinking_mode
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
max_tokens=32768,
extra_body={"thinking": {"type": "max"}}
)
Benchmark: El Impacto del Modo de Razonamiento
La siguiente tabla compara V4-Flash en los tres modos — una demostración llamativa de cómo la profundidad del razonamiento afecta al rendimiento:
| Benchmark | Flash Non-Think | Flash Think High | Flash Think Max |
|---|---|---|---|
| MMLU-Pro | 83,0 % | 86,4 % | 86,2 % |
| GPQA Diamond | 71,2 % | 87,4 % | 88,1 % |
| HLE | 8,1 % | 29,4 % | 34,8 % |
| LiveCodeBench | 55,2 % | 88,4 % | 91,6 % |
| Codeforces Rating | N/A | 2816 | 3052 |
| HMMT 2026 Feb | 40,8 % | 91,9 % | 94,8 % |
Incluso V4-Flash en modo Think Max alcanza Codeforces 3052, siendo competitivo con Gemini-3.1-Pro y a solo 154 puntos de V4-Pro-Max. Esto demuestra que la arquitectura de razonamiento es fundamental para el salto en capacidad del modelo.
Cuándo Tiene Sentido Económicamente Cada Modo
Dado que Think Max genera trazas de razonamiento más largas, consume más tokens de salida:
| Modo | Tokens aprox. por respuesta | Coste por consulta (V4-Flash) |
|---|---|---|
| Non-Think | ~200-500 | ~$0,0001 |
| Think High | ~2.000-8.000 | ~$0,0010 |
| Think Max | ~8.000-50.000 | ~$0,005-$0,014 |
Incluso en modo Think Max, V4-Flash resulta excepcionalmente asequible. Un problema de razonamiento exigente podría costar $0,01-$0,05 por consulta, una fracción de lo que cobran los modelos propietarios por respuestas básicas.
Conversaciones Multi-turno y Cambio de Modo
Puedes cambiar el modo de razonamiento entre los turnos de una conversación multi-turno. Por ejemplo:
- Usa Non-Think para intercambios informales y turnos de construcción de contexto
- Cambia a Think High cuando surja una pregunta compleja
- Escala a Think Max para las tareas más exigentes
Plataformas como Framia.pro, que orquestan flujos de trabajo creativos de IA en múltiples pasos, pueden aprovechar esta jerarquía — usando respuestas rápidas Non-Think para los pasos rutinarios y escalando a Think Max cuando una tarea requiere las capacidades más profundas del modelo.
Conclusión
Los tres modos de razonamiento de DeepSeek V4 ofrecen a desarrolladores y usuarios un nivel de control sin precedentes sobre el equilibrio entre rendimiento, coste y latencia. Non-Think ofrece respuestas instantáneas; Think High equilibra velocidad y precisión; Think Max lleva al modelo a sus límites absolutos. El resultado es un único modelo capaz de servir desde el autocompletado más trivial hasta el razonamiento matemático de nivel competición, todo dentro de la misma API.