DeepSeek V4 vs DeepSeek V3: насколько вырос уровень?

Сравнение DeepSeek V4 и V3.2: контекстное окно увеличено в 8 раз, гибридная архитектура внимания, оптимизатор Muon, 32T обучающих токенов. Полный разбор бенчмарков.

by Framia

DeepSeek V4 vs DeepSeek V3: насколько вырос уровень?

DeepSeek V3 — в особенности версия V3.2 — был признан одной из лучших открытых моделей 2025 года. Поэтому, когда в апреле 2026 года вышел DeepSeek V4, главный вопрос звучал закономерно: насколько велик скачок? Ответ оказался весомым — особенно в части эффективности, работы с контекстом и навыков программирования.


Сравнение моделей

Характеристика DeepSeek-V3.2 DeepSeek-V4-Flash DeepSeek-V4-Pro
Всего параметров 671B 284B 1,6T
Активных параметров 37B 13B 49B
Контекстное окно 128K токенов 1M токенов 1M токенов
Архитектура MoE + MLA MoE + гибридное внимание (CSA+HCA) + mHC MoE + гибридное внимание (CSA+HCA) + mHC
Лицензия MIT MIT MIT
Режимы рассуждения Think / Non-think Non-think / Think High / Think Max Non-think / Think High / Think Max

Наиболее заметные различия:

  1. Контекстное окно: V3.2 работал со 128K токенами; V4 — с 1 миллионом — увеличение в 8 раз
  2. V4-Pro превосходит V3.2 по числу параметров в 2,4 раза
  3. Архитектура: V4 вводит систему гибридного внимания (CSA + HCA) и mHC, принципиально меняя эффективность на длинных контекстах
  4. Режимы рассуждения: у V3.2 было два режима; V4 добавляет третий с более тонким управлением бюджетом «размышлений»

Рост эффективности: в чём настоящая ценность

Пожалуй, самое впечатляющее улучшение — не «сырая» мощность, а эффективность при масштабировании.

В сценарии с контекстом в 1 миллион токенов V4-Pro требует:

  • Лишь 27 % вычислительных FLOPs, которые понадобились бы V3.2 при эквивалентной длине контекста
  • Лишь 10 % памяти KV-кэша, необходимой V3.2

Именно в этом состоит ключевое нововведение архитектуры гибридного внимания DeepSeek V4 (CSA + HCA). Суть не только в том, что V4 способен работать с 1 миллионом токенов, — он делает это несопоставимо эффективнее, чем V3.2 справлялся даже при 128K токенах.


Сравнение базовых моделей по бенчмаркам

Бенчмарк V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (5-shot) 87,8 % 88,7 % 90,1 %
MMLU-Redux (5-shot) 87,5 % 89,4 % 90,8 %
MMLU-Pro (5-shot) 65,5 % 68,3 % 73,5 %
HumanEval (Pass@1) 62,8 % 69,5 % 76,8 %
GSM8K (8-shot) 91,1 % 90,8 % 92,6 %
MATH (4-shot) 60,5 % 57,4 % 64,5 %
Simple-QA verified 28,3 % 30,1 % 55,2 %
LongBench-V2 40,2 % 44,7 % 51,5 %
AGIEval 80,1 % 82,6 % 83,1 %

Главные выводы:

  • V4-Pro-Base опережает V3.2-Base практически по каждому бенчмарку
  • Наиболее разительный прирост — в области знаний о мире (SimpleQA: 28,3 % → 55,2 %) и длинных контекстов (LongBench-V2: 40,2 % → 51,5 %)
  • V4-Flash-Base, несмотря на меньший размер, показывает сопоставимые или лучшие результаты на большинстве задач — впечатляющая демонстрация эффективности

Программирование: огромный скачок

Прогресс в задачах программирования от V3.2 к V4-Pro особенно заметен — прежде всего в режиме Think Max:

Бенчмарк V3.2 (оценка) V4-Pro Max
LiveCodeBench ~75–80 % 93,5 %
HumanEval (Base) 62,8 % 76,8 %
SWE-bench Verified ~75 % 80,6 %
Рейтинг Codeforces ~2500–2700 3206

Прыжок рейтинга на Codeforces с уровня V3.2 до V4-Pro-Max — это качественный сдвиг: V4-Pro теперь входит в элиту соревновательного программирования, которой V3.2 достичь не мог.


Контекстное окно: от 128K до 1 миллиона токенов

Это заслуживает отдельного акцента. Контекстное окно в 128K токенов у DeepSeek V3.2 уже было щедрым — но крупные кодовые базы, объёмные юридические документы или многокнижные исследовательские материалы всё равно требовали стратегии дробления и суммаризации.

Контекст V4 в 1 миллион токенов полностью устраняет любые обходные пути. Рабочий процесс меняется кардинально:

Схема работы V3.2 с большими документами:

  1. Разбить документ на фрагменты по 120K токенов
  2. Суммировать каждый фрагмент
  3. Объединить резюме и делать выводы
  4. Потерять точность и связность контекста

Схема работы V4:

  1. Загрузить весь документ в единый контекст
  2. Задать вопрос напрямую
  3. Получить связный и полный ответ

Новые решения в обучении

V4 внёс существенные изменения в процесс обучения по сравнению с V3.2:

Новшество V3.2 V4
Оптимизатор Вариант AdamW Muon
Остаточные соединения Стандартные mHC (Manifold-Constrained Hyper-Connections)
Обучающих токенов ~18T 32T+
Пайплайн постобучения SFT + RL Двухэтапный: специализация экспертов → on-policy дистилляция
Механизм внимания MLA (Multi-head Latent Attention) Гибридное внимание (CSA + HCA)

Эти изменения усиливают друг друга: больше данных, улучшенный оптимизатор, более мощные остаточные соединения и революционный механизм внимания вместе обеспечивают наблюдаемый рост в бенчмарках.


Когда всё ещё стоит использовать V3.2?

Несмотря на преимущества V4, есть сценарии, где V3.2 остаётся предпочтительным:

  • Готовые дообученные модели: если вы уже дообучили V3.2 под конкретную задачу, переход на V4 потребует значительных усилий
  • Менее мощное железо: V3.2 с 671B параметров / 37B активных по-прежнему работает на системах, которые могут не справиться с V4-Flash (284B параметров)
  • Стабильность: V4 — это превью-релиз; V3.2 — стабильная, проверенная временем модель

Заключение

Переход от DeepSeek V3.2 к V4 — один из крупнейших скачков возможностей в рамках одного поколения модели за недавнюю историю ИИ. Восьмикратное расширение контекстного окна, фундаментальные изменения архитектуры и улучшение по всем категориям бенчмарков делают V4 очевидным апгрейдом для большинства задач.

Разработчики и команды, использующие V3.2 сегодня — напрямую или через платформы вроде Framia.pro — могут перейти на V4-Flash или V4-Pro, просто сменив API-endpoint. Это обеспечит кардинально лучшую производительность при сопоставимых или меньших затратах.