Режимы мышления DeepSeek V4: как работают Non-Think, Think High и Think Max
Одна из самых выдающихся особенностей DeepSeek V4 — трёхуровневая система рассуждений. Вместо простого выбора между «рассуждением» и «без рассуждения» V4 позволяет точно настроить уровень когнитивных усилий модели — от мгновенных ответов до глубокого, расширенного рассуждения в цепочке мыслей (chain-of-thought).
Три режима в двух словах
| Режим | Описание | Скорость | Точность | Идеально для |
|---|---|---|---|---|
| Non-Think | Прямой ответ без цепочки мыслей | Самая высокая | Базовая | Повседневные задачи, простые вопросы |
| Think High | Управляемое рассуждение с цепочкой мыслей | Средняя | Высокая | Сложные задачи, планирование |
| Think Max | Расширенное, исчерпывающее рассуждение | Самая низкая | Максимальная | Олимпиадная математика, сложное программирование |
Все три режима доступны как в V4-Pro, так и в V4-Flash.
Режим 1: Non-Think
Non-Think — самый быстрый режим. Модель генерирует ответы интуитивно, без явной цепочки мыслей. Это аналог работы прежних LLM — и при этом остаётся впечатляюще мощным благодаря масштабу V4.
Формат ответа: Вывод начинается с пустого тега </think> (означающего отсутствие трассировки рассуждений), после чего сразу следует резюме или ответ.
Лучше всего для:
- Интерфейсов диалога в реальном времени
- Простых задач классификации или извлечения данных
- Автодополнения и подсказок с минимальной задержкой
- Пакетной обработки больших объёмов, где важны стоимость и скорость
Настройка API:
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "What's the capital of France?"}],
extra_body={"thinking": {"type": "disabled"}}
)
Влияние на бенчмарки (V4-Pro Non-Think vs Think Max):
| Бенчмарк | Non-Think | Think Max |
|---|---|---|
| GPQA Diamond | 72,9% | 90,1% |
| LiveCodeBench | 56,8% | 93,5% |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31,7% | 95,2% |
Разрыв между Non-Think и Think Max в сложных задачах на рассуждение огромен — до 60 процентных пунктов в соревновательном программировании.
Режим 2: Think High
Think High активирует управляемый процесс рассуждения с цепочкой мыслей. Модель явно «обдумывает» задачу перед ответом, но с ограниченным бюджетом на рассуждение, что предотвращает неконтролируемые затраты на инференс.
Формат ответа: Вывод включает блок <think> с трассировкой рассуждений, после которого следует </think> и итоговое резюме.
Лучше всего для:
- Решения сложных задач, где важна точность, но скорость тоже имеет значение
- Задач планирования и многошагового рассуждения
- Отладки и анализа кода
- Синтеза исследований и сравнительного анализа
Настройка API:
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)
# Доступ к трассировке рассуждений
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
Параметр budget_tokens позволяет управлять токенным бюджетом, выделенным на трассировку рассуждений.
Режим 3: Think Max
Think Max раскрывает абсолютный потенциал рассуждений V4. В этом режиме используется специальный системный промпт, который инструктирует модель рассуждать как можно глубже и тщательнее перед ответом.
Формат ответа: Специальный системный промпт + расширенная трассировка рассуждений <think> + итоговый ответ </think>.
Ключевое требование: DeepSeek рекомендует минимальное контекстное окно в 384K токенов для Think Max, поскольку трассировка рассуждений для сложных задач может быть очень длинной.
Лучше всего для:
- Олимпиадной математики (IMO, HMMT, Putnam)
- Сложнейших задач программной инженерии
- Генерации и анализа научных гипотез
- Любых задач, где правильный ответ важнее скорости и стоимости
Настройка API (схема):
THINK_MAX_SYSTEM_PROMPT = "..." # Используйте точный промпт с api-docs.deepseek.com/guides/thinking_mode
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
max_tokens=32768,
extra_body={"thinking": {"type": "max"}}
)
Бенчмарки: влияние режима рассуждения
Таблица ниже сравнивает V4-Flash во всех трёх режимах — наглядная демонстрация того, как глубина рассуждений влияет на производительность:
| Бенчмарк | Flash Non-Think | Flash Think High | Flash Think Max |
|---|---|---|---|
| MMLU-Pro | 83,0% | 86,4% | 86,2% |
| GPQA Diamond | 71,2% | 87,4% | 88,1% |
| HLE | 8,1% | 29,4% | 34,8% |
| LiveCodeBench | 55,2% | 88,4% | 91,6% |
| Codeforces Rating | N/A | 2816 | 3052 |
| HMMT 2026 Feb | 40,8% | 91,9% | 94,8% |
Даже V4-Flash в режиме Think Max достигает рейтинга Codeforces 3052 — наравне с Gemini-3.1-Pro и лишь на 154 пункта ниже V4-Pro-Max. Это подтверждает, что архитектура мышления является фундаментальной для скачка в возможностях модели.
Когда каждый режим экономически оправдан?
Поскольку Think Max генерирует более длинные трассировки рассуждений, он потребляет больше выходных токенов:
| Режим | Прибл. токенов на ответ | Стоимость запроса (V4-Flash) |
|---|---|---|
| Non-Think | ~200-500 | ~$0,0001 |
| Think High | ~2 000-8 000 | ~$0,0010 |
| Think Max | ~8 000-50 000 | ~$0,005-$0,014 |
Даже в режиме Think Max V4-Flash исключительно доступен по цене. Сложная задача на рассуждение может обойтись в $0,01-$0,05 за запрос — лишь малая часть того, что закрытые модели берут за базовые ответы.
Многоходовые диалоги и переключение режимов
Вы можете переключать режимы рассуждения между ходами в многоходовом диалоге. Например:
- Используйте Non-Think для непринуждённых обменов и построения контекста
- Переходите к Think High, когда возникает сложный вопрос
- Переключайтесь на Think Max для самых требовательных задач
Платформы вроде Framia.pro, оркестрирующие многошаговые AI-воркфлоу, могут использовать эту иерархию — применяя быстрые Non-Think-ответы для рутинных шагов и переходя к Think Max, когда задача требует глубочайших возможностей модели.
Заключение
Три режима рассуждений DeepSeek V4 дают разработчикам и пользователям беспрецедентный контроль над балансом производительности, стоимости и задержки. Non-Think обеспечивает мгновенные ответы; Think High балансирует скорость и точность; Think Max подводит модель к абсолютным пределам. В итоге — единая модель, способная справляться со всем: от тривиального автодополнения до математических рассуждений олимпийского уровня — всё в рамках одного API.