Бенчмарки DeepSeek V4: результаты на LiveCodeBench, MMLU, SWE-bench и других тестах
DeepSeek V4 вышел 24 апреля 2026 года с громкими заявлениями: лучшая открытая модель на рынке, топовый рейтинг на Codeforces и производительность, близкая к ведущим закрытым моделям, в задачах рассуждения, знаний и агентной работы. Представляем полный анализ всех ключевых результатов бенчмарков — с разбивкой по вариантам модели и режимам рассуждения.
Режимы бенчмарков DeepSeek V4
DeepSeek V4 представляет результаты в шести конфигурациях:
| Конфигурация | Описание |
|---|---|
| V4-Flash Non-Think | Быстрый режим, без цепочки рассуждений |
| V4-Flash Think High | Умеренное расширенное рассуждение |
| V4-Flash Think Max | Максимальное усилие рассуждения (Flash) |
| V4-Pro Non-Think | Быстрый режим, без цепочки рассуждений (Pro) |
| V4-Pro Think High | Умеренное расширенное рассуждение (Pro) |
| V4-Pro Think Max | Максимальное рассуждение — лучшие общие результаты |
Большинство конкурентных бенчмарков публикуют результаты V4-Pro-Max. Именно это число приводится в заголовках, когда говорят о «DeepSeek V4».
Бенчмарки по программированию
| Бенчмарк | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 91,6% | 93,5% | 88,8% | N/A | 91,7% |
| Рейтинг Codeforces | 3052 | 3206 | N/A | 3168 | 3052 |
| HMMT 2026 Feb (Pass@1) | 94,8% | 95,2% | 96,2% | 97,7% | 94,7% |
| IMOAnswerBench (Pass@1) | 88,4% | 89,8% | 75,3% | 91,4% | 81,0% |
Выдающиеся результаты:
- V4-Pro-Max достигает наивысшего рейтинга Codeforces среди всех протестированных моделей (3206), опережая GPT-5.4 (3168) и Claude Opus 4.6 (N/A)
- V4-Pro-Max лидирует на LiveCodeBench (93,5%) среди моделей с доступными данными
- В соревновательной математике (IMO) GPT-5.4 немного впереди (91,4% против 89,8%)
Бенчмарки знаний и рассуждений
| Бенчмарк | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| MMLU-Pro (EM) | 86,2% | 87,5% | 89,1% | 87,5% | 91,0% |
| GPQA Diamond (Pass@1) | 88,1% | 90,1% | 91,3% | 93,0% | 94,3% |
| HLE (Pass@1) | 34,8% | 37,7% | 40,0% | 39,8% | 44,4% |
| SimpleQA-Verified (Pass@1) | 34,1% | 57,9% | 46,2% | 45,3% | 75,6% |
| Apex Shortlist (Pass@1) | 85,7% | 90,2% | 85,9% | 78,1% | 89,1% |
Ключевые наблюдения:
- Gemini-3.1-Pro лидирует на большинстве бенчмарков знаний (MMLU-Pro, GPQA Diamond, SimpleQA, HLE)
- V4-Pro-Max лидирует на сложном бенчмарке Apex Shortlist (90,2%)
- Результат V4-Pro-Max на SimpleQA (57,9%) значительно превосходит Opus 4.6 (46,2%) и GPT-5.4 (45,3%), что говорит о сильном фактологическом запоминании
Бенчмарки на длинный контекст
| Бенчмарк | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | Gemini-3.1-Pro High |
|---|---|---|---|---|
| MRCR 1M (MMR) | 78,7% | 83,5% | 92,9% | 76,3% |
| CorpusQA 1M (ACC) | 60,5% | 62,0% | 71,7% | 53,8% |
Анализ:
- V4-Pro превосходит Gemini-3.1-Pro на CorpusQA 1M (62,0% против 53,8%)
- Claude Opus 4.6 лидирует на MRCR 1M (92,9% против 83,5%) — вероятно, благодаря архитектурным оптимизациям Claude для поиска по документам
- Обе модели V4 уверенно обходят Gemini на CorpusQA, что делает их сильным выбором для задач RAG
Бенчмарки агентных задач
| Бенчмарк | V4-Flash Max | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High |
|---|---|---|---|---|---|
| Terminal Bench 2.0 (Acc) | 56,9% | 67,9% | 65,4% | 75,1% | 68,5% |
| SWE-bench Verified (Resolved) | 79,0% | 80,6% | 80,8% | N/A | 80,6% |
| SWE-bench Pro (Resolved) | 52,6% | 55,4% | 57,3% | 57,7% | 54,2% |
| BrowseComp (Pass@1) | 73,2% | 83,4% | 83,7% | 82,7% | 85,9% |
| MCPAtlas Public (Pass@1) | 69,0% | 73,6% | 73,8% | 67,2% | 69,2% |
| Toolathlon (Pass@1) | 47,8% | 51,8% | 47,2% | 54,6% | 48,8% |
Выдающиеся результаты:
- SWE-bench Verified: V4-Pro (80,6%) наравне с Gemini-3.1-Pro (80,6%) и почти вровень с Opus 4.6 (80,8%) — впечатляющий результат для открытой модели
- MCPAtlas: V4-Pro (73,6%) почти вровень с лидером категории Opus 4.6 (73,8%)
- Terminal Bench 2.0: GPT-5.4 лидирует (75,1%), V4-Pro — 67,9%
Бенчмарки базовой модели
Результаты V4-Pro-Base (предобученная, до дообучения на инструкциях) демонстрируют впечатляющие исходные возможности:
| Бенчмарк | DS-V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (EM) | 87,8% | 88,7% | 90,1% |
| MMLU-Redux (EM) | 87,5% | 89,4% | 90,8% |
| GSM8K (EM) | 91,1% | 90,8% | 92,6% |
| HumanEval (Pass@1) | 62,8% | 69,5% | 76,8% |
| LongBench-V2 (EM) | 40,2% | 44,7% | 51,5% |
V4-Pro-Base стабильно превосходит и V3.2-Base, и V4-Flash-Base во всех категориях.
Итоги: в чём DeepSeek V4 лидирует, а в чём отстаёт
V4-Pro-Max лидирует в:
- Соревновательном программировании на Codeforces (рейтинг 3206)
- LiveCodeBench (93,5%)
- Рассуждении Apex Shortlist (90,2%)
- Фактологическом запоминании SimpleQA (57,9%) — по сравнению с большинством не-Gemini моделей
V4-Pro-Max отстаёт в:
- GPQA Diamond (Gemini лидирует с 94,3%)
- HLE — наиболее сложные рассуждения (Gemini лидирует с 44,4%)
- MRCR 1M — длинный контекст (Opus 4.6 лидирует с 92,9%)
- Агентных задачах Terminal Bench 2.0 (GPT-5.4 лидирует с 75,1%)
Для AI-нативных платформ и инструментов, подобных Framia.pro, где программирование, агентные задачи и работа с длинным контекстом являются ключевыми сценариями, профиль бенчмарков DeepSeek V4-Pro делает его одним из наиболее привлекательных решений в 2026 году.
Заключение
DeepSeek V4-Pro — лучшая модель с открытыми весами практически в каждой категории бенчмарков, способная на равных конкурировать с ведущими закрытыми моделями. Наиболее выдающиеся результаты демонстрирует в соревновательном программировании, где обходит все другие протестированные модели. На наиболее сложных задачах научного рассуждения и поиска в длинных документах она незначительно отстаёт, но этот разрыв неуклонно сокращается.