Бенчмарки DeepSeek V4: результаты на LiveCodeBench, MMLU, SWE-bench и других тестах

DeepSeek V4-Pro набирает 93,5% на LiveCodeBench, 3206 на Codeforces и 90,1% на GPQA Diamond. Полный анализ бенчмарков по всем режимам и конкурентам.

by Framia

Бенчмарки DeepSeek V4: результаты на LiveCodeBench, MMLU, SWE-bench и других тестах

DeepSeek V4 вышел 24 апреля 2026 года с громкими заявлениями: лучшая открытая модель на рынке, топовый рейтинг на Codeforces и производительность, близкая к ведущим закрытым моделям, в задачах рассуждения, знаний и агентной работы. Представляем полный анализ всех ключевых результатов бенчмарков — с разбивкой по вариантам модели и режимам рассуждения.


Режимы бенчмарков DeepSeek V4

DeepSeek V4 представляет результаты в шести конфигурациях:

Конфигурация Описание
V4-Flash Non-Think Быстрый режим, без цепочки рассуждений
V4-Flash Think High Умеренное расширенное рассуждение
V4-Flash Think Max Максимальное усилие рассуждения (Flash)
V4-Pro Non-Think Быстрый режим, без цепочки рассуждений (Pro)
V4-Pro Think High Умеренное расширенное рассуждение (Pro)
V4-Pro Think Max Максимальное рассуждение — лучшие общие результаты

Большинство конкурентных бенчмарков публикуют результаты V4-Pro-Max. Именно это число приводится в заголовках, когда говорят о «DeepSeek V4».


Бенчмарки по программированию

Бенчмарк V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
LiveCodeBench (Pass@1) 91,6% 93,5% 88,8% N/A 91,7%
Рейтинг Codeforces 3052 3206 N/A 3168 3052
HMMT 2026 Feb (Pass@1) 94,8% 95,2% 96,2% 97,7% 94,7%
IMOAnswerBench (Pass@1) 88,4% 89,8% 75,3% 91,4% 81,0%

Выдающиеся результаты:

  • V4-Pro-Max достигает наивысшего рейтинга Codeforces среди всех протестированных моделей (3206), опережая GPT-5.4 (3168) и Claude Opus 4.6 (N/A)
  • V4-Pro-Max лидирует на LiveCodeBench (93,5%) среди моделей с доступными данными
  • В соревновательной математике (IMO) GPT-5.4 немного впереди (91,4% против 89,8%)

Бенчмарки знаний и рассуждений

Бенчмарк V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro (EM) 86,2% 87,5% 89,1% 87,5% 91,0%
GPQA Diamond (Pass@1) 88,1% 90,1% 91,3% 93,0% 94,3%
HLE (Pass@1) 34,8% 37,7% 40,0% 39,8% 44,4%
SimpleQA-Verified (Pass@1) 34,1% 57,9% 46,2% 45,3% 75,6%
Apex Shortlist (Pass@1) 85,7% 90,2% 85,9% 78,1% 89,1%

Ключевые наблюдения:

  • Gemini-3.1-Pro лидирует на большинстве бенчмарков знаний (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
  • V4-Pro-Max лидирует на сложном бенчмарке Apex Shortlist (90,2%)
  • Результат V4-Pro-Max на SimpleQA (57,9%) значительно превосходит Opus 4.6 (46,2%) и GPT-5.4 (45,3%), что говорит о сильном фактологическом запоминании

Бенчмарки на длинный контекст

Бенчмарк V4-Flash Max V4-Pro Max Opus 4.6 Max Gemini-3.1-Pro High
MRCR 1M (MMR) 78,7% 83,5% 92,9% 76,3%
CorpusQA 1M (ACC) 60,5% 62,0% 71,7% 53,8%

Анализ:

  • V4-Pro превосходит Gemini-3.1-Pro на CorpusQA 1M (62,0% против 53,8%)
  • Claude Opus 4.6 лидирует на MRCR 1M (92,9% против 83,5%) — вероятно, благодаря архитектурным оптимизациям Claude для поиска по документам
  • Обе модели V4 уверенно обходят Gemini на CorpusQA, что делает их сильным выбором для задач RAG

Бенчмарки агентных задач

Бенчмарк V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc) 56,9% 67,9% 65,4% 75,1% 68,5%
SWE-bench Verified (Resolved) 79,0% 80,6% 80,8% N/A 80,6%
SWE-bench Pro (Resolved) 52,6% 55,4% 57,3% 57,7% 54,2%
BrowseComp (Pass@1) 73,2% 83,4% 83,7% 82,7% 85,9%
MCPAtlas Public (Pass@1) 69,0% 73,6% 73,8% 67,2% 69,2%
Toolathlon (Pass@1) 47,8% 51,8% 47,2% 54,6% 48,8%

Выдающиеся результаты:

  • SWE-bench Verified: V4-Pro (80,6%) наравне с Gemini-3.1-Pro (80,6%) и почти вровень с Opus 4.6 (80,8%) — впечатляющий результат для открытой модели
  • MCPAtlas: V4-Pro (73,6%) почти вровень с лидером категории Opus 4.6 (73,8%)
  • Terminal Bench 2.0: GPT-5.4 лидирует (75,1%), V4-Pro — 67,9%

Бенчмарки базовой модели

Результаты V4-Pro-Base (предобученная, до дообучения на инструкциях) демонстрируют впечатляющие исходные возможности:

Бенчмарк DS-V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (EM) 87,8% 88,7% 90,1%
MMLU-Redux (EM) 87,5% 89,4% 90,8%
GSM8K (EM) 91,1% 90,8% 92,6%
HumanEval (Pass@1) 62,8% 69,5% 76,8%
LongBench-V2 (EM) 40,2% 44,7% 51,5%

V4-Pro-Base стабильно превосходит и V3.2-Base, и V4-Flash-Base во всех категориях.


Итоги: в чём DeepSeek V4 лидирует, а в чём отстаёт

V4-Pro-Max лидирует в:

  • Соревновательном программировании на Codeforces (рейтинг 3206)
  • LiveCodeBench (93,5%)
  • Рассуждении Apex Shortlist (90,2%)
  • Фактологическом запоминании SimpleQA (57,9%) — по сравнению с большинством не-Gemini моделей

V4-Pro-Max отстаёт в:

  • GPQA Diamond (Gemini лидирует с 94,3%)
  • HLE — наиболее сложные рассуждения (Gemini лидирует с 44,4%)
  • MRCR 1M — длинный контекст (Opus 4.6 лидирует с 92,9%)
  • Агентных задачах Terminal Bench 2.0 (GPT-5.4 лидирует с 75,1%)

Для AI-нативных платформ и инструментов, подобных Framia.pro, где программирование, агентные задачи и работа с длинным контекстом являются ключевыми сценариями, профиль бенчмарков DeepSeek V4-Pro делает его одним из наиболее привлекательных решений в 2026 году.


Заключение

DeepSeek V4-Pro — лучшая модель с открытыми весами практически в каждой категории бенчмарков, способная на равных конкурировать с ведущими закрытыми моделями. Наиболее выдающиеся результаты демонстрирует в соревновательном программировании, где обходит все другие протестированные модели. На наиболее сложных задачах научного рассуждения и поиска в длинных документах она незначительно отстаёт, но этот разрыв неуклонно сокращается.