Бенчмарки DeepSeek V4: полный анализ результатов (2026)

DeepSeek V4-Pro набирает 93,5% на LiveCodeBench, 3206 на Codeforces и 90,1% на GPQA Diamond. Полный анализ бенчмарков по всем режимам и конкурентам.

Бенчмарки DeepSeek V4: результаты на LiveCodeBench, MMLU, SWE-bench и других тестах

DeepSeek V4 вышел 24 апреля 2026 года с громкими заявлениями: лучшая открытая модель на рынке, топовый рейтинг на Codeforces и производительность, близкая к ведущим закрытым моделям, в задачах рассуждения, знаний и агентной работы. Представляем полный анализ всех ключевых результатов бенчмарков — с разбивкой по вариантам модели и режимам рассуждения.

Режимы бенчмарков DeepSeek V4

DeepSeek V4 представляет результаты в шести конфигурациях:

Конфигурация	Описание
V4-Flash Non-Think	Быстрый режим, без цепочки рассуждений
V4-Flash Think High	Умеренное расширенное рассуждение
V4-Flash Think Max	Максимальное усилие рассуждения (Flash)
V4-Pro Non-Think	Быстрый режим, без цепочки рассуждений (Pro)
V4-Pro Think High	Умеренное расширенное рассуждение (Pro)
V4-Pro Think Max	Максимальное рассуждение — лучшие общие результаты

Большинство конкурентных бенчмарков публикуют результаты V4-Pro-Max. Именно это число приводится в заголовках, когда говорят о «DeepSeek V4».

Бенчмарки по программированию

Бенчмарк	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
LiveCodeBench (Pass@1)	91,6%	93,5%	88,8%	N/A	91,7%
Рейтинг Codeforces	3052	3206	N/A	3168	3052
HMMT 2026 Feb (Pass@1)	94,8%	95,2%	96,2%	97,7%	94,7%
IMOAnswerBench (Pass@1)	88,4%	89,8%	75,3%	91,4%	81,0%

Выдающиеся результаты:

V4-Pro-Max достигает наивысшего рейтинга Codeforces среди всех протестированных моделей (3206), опережая GPT-5.4 (3168) и Claude Opus 4.6 (N/A)
V4-Pro-Max лидирует на LiveCodeBench (93,5%) среди моделей с доступными данными
В соревновательной математике (IMO) GPT-5.4 немного впереди (91,4% против 89,8%)

Бенчмарки знаний и рассуждений

Бенчмарк	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro (EM)	86,2%	87,5%	89,1%	87,5%	91,0%
GPQA Diamond (Pass@1)	88,1%	90,1%	91,3%	93,0%	94,3%
HLE (Pass@1)	34,8%	37,7%	40,0%	39,8%	44,4%
SimpleQA-Verified (Pass@1)	34,1%	57,9%	46,2%	45,3%	75,6%
Apex Shortlist (Pass@1)	85,7%	90,2%	85,9%	78,1%	89,1%

Ключевые наблюдения:

Gemini-3.1-Pro лидирует на большинстве бенчмарков знаний (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
V4-Pro-Max лидирует на сложном бенчмарке Apex Shortlist (90,2%)
Результат V4-Pro-Max на SimpleQA (57,9%) значительно превосходит Opus 4.6 (46,2%) и GPT-5.4 (45,3%), что говорит о сильном фактологическом запоминании

Бенчмарки на длинный контекст

Бенчмарк	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	Gemini-3.1-Pro High
MRCR 1M (MMR)	78,7%	83,5%	92,9%	76,3%
CorpusQA 1M (ACC)	60,5%	62,0%	71,7%	53,8%

Анализ:

V4-Pro превосходит Gemini-3.1-Pro на CorpusQA 1M (62,0% против 53,8%)
Claude Opus 4.6 лидирует на MRCR 1M (92,9% против 83,5%) — вероятно, благодаря архитектурным оптимизациям Claude для поиска по документам
Обе модели V4 уверенно обходят Gemini на CorpusQA, что делает их сильным выбором для задач RAG

Бенчмарки агентных задач

Бенчмарк	V4-Flash Max	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc)	56,9%	67,9%	65,4%	75,1%	68,5%
SWE-bench Verified (Resolved)	79,0%	80,6%	80,8%	N/A	80,6%
SWE-bench Pro (Resolved)	52,6%	55,4%	57,3%	57,7%	54,2%
BrowseComp (Pass@1)	73,2%	83,4%	83,7%	82,7%	85,9%
MCPAtlas Public (Pass@1)	69,0%	73,6%	73,8%	67,2%	69,2%
Toolathlon (Pass@1)	47,8%	51,8%	47,2%	54,6%	48,8%

Выдающиеся результаты:

SWE-bench Verified: V4-Pro (80,6%) наравне с Gemini-3.1-Pro (80,6%) и почти вровень с Opus 4.6 (80,8%) — впечатляющий результат для открытой модели
MCPAtlas: V4-Pro (73,6%) почти вровень с лидером категории Opus 4.6 (73,8%)
Terminal Bench 2.0: GPT-5.4 лидирует (75,1%), V4-Pro — 67,9%

Бенчмарки базовой модели

Результаты V4-Pro-Base (предобученная, до дообучения на инструкциях) демонстрируют впечатляющие исходные возможности:

Бенчмарк	DS-V3.2-Base	V4-Flash-Base	V4-Pro-Base
MMLU (EM)	87,8%	88,7%	90,1%
MMLU-Redux (EM)	87,5%	89,4%	90,8%
GSM8K (EM)	91,1%	90,8%	92,6%
HumanEval (Pass@1)	62,8%	69,5%	76,8%
LongBench-V2 (EM)	40,2%	44,7%	51,5%

V4-Pro-Base стабильно превосходит и V3.2-Base, и V4-Flash-Base во всех категориях.

Итоги: в чём DeepSeek V4 лидирует, а в чём отстаёт

V4-Pro-Max лидирует в:

Соревновательном программировании на Codeforces (рейтинг 3206)
LiveCodeBench (93,5%)
Рассуждении Apex Shortlist (90,2%)
Фактологическом запоминании SimpleQA (57,9%) — по сравнению с большинством не-Gemini моделей

V4-Pro-Max отстаёт в:

GPQA Diamond (Gemini лидирует с 94,3%)
HLE — наиболее сложные рассуждения (Gemini лидирует с 44,4%)
MRCR 1M — длинный контекст (Opus 4.6 лидирует с 92,9%)
Агентных задачах Terminal Bench 2.0 (GPT-5.4 лидирует с 75,1%)

Для AI-нативных платформ и инструментов, подобных Framia.pro, где программирование, агентные задачи и работа с длинным контекстом являются ключевыми сценариями, профиль бенчмарков DeepSeek V4-Pro делает его одним из наиболее привлекательных решений в 2026 году.

Заключение

DeepSeek V4-Pro — лучшая модель с открытыми весами практически в каждой категории бенчмарков, способная на равных конкурировать с ведущими закрытыми моделями. Наиболее выдающиеся результаты демонстрирует в соревновательном программировании, где обходит все другие протестированные модели. На наиболее сложных задачах научного рассуждения и поиска в длинных документах она незначительно отстаёт, но этот разрыв неуклонно сокращается.