DeepSeek V4 vs DeepSeek V3: насколько вырос уровень?
DeepSeek V3 — в особенности версия V3.2 — был признан одной из лучших открытых моделей 2025 года. Поэтому, когда в апреле 2026 года вышел DeepSeek V4, главный вопрос звучал закономерно: насколько велик скачок? Ответ оказался весомым — особенно в части эффективности, работы с контекстом и навыков программирования.
Сравнение моделей
| Характеристика | DeepSeek-V3.2 | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|---|
| Всего параметров | 671B | 284B | 1,6T |
| Активных параметров | 37B | 13B | 49B |
| Контекстное окно | 128K токенов | 1M токенов | 1M токенов |
| Архитектура | MoE + MLA | MoE + гибридное внимание (CSA+HCA) + mHC | MoE + гибридное внимание (CSA+HCA) + mHC |
| Лицензия | MIT | MIT | MIT |
| Режимы рассуждения | Think / Non-think | Non-think / Think High / Think Max | Non-think / Think High / Think Max |
Наиболее заметные различия:
- Контекстное окно: V3.2 работал со 128K токенами; V4 — с 1 миллионом — увеличение в 8 раз
- V4-Pro превосходит V3.2 по числу параметров в 2,4 раза
- Архитектура: V4 вводит систему гибридного внимания (CSA + HCA) и mHC, принципиально меняя эффективность на длинных контекстах
- Режимы рассуждения: у V3.2 было два режима; V4 добавляет третий с более тонким управлением бюджетом «размышлений»
Рост эффективности: в чём настоящая ценность
Пожалуй, самое впечатляющее улучшение — не «сырая» мощность, а эффективность при масштабировании.
В сценарии с контекстом в 1 миллион токенов V4-Pro требует:
- Лишь 27 % вычислительных FLOPs, которые понадобились бы V3.2 при эквивалентной длине контекста
- Лишь 10 % памяти KV-кэша, необходимой V3.2
Именно в этом состоит ключевое нововведение архитектуры гибридного внимания DeepSeek V4 (CSA + HCA). Суть не только в том, что V4 способен работать с 1 миллионом токенов, — он делает это несопоставимо эффективнее, чем V3.2 справлялся даже при 128K токенах.
Сравнение базовых моделей по бенчмаркам
| Бенчмарк | V3.2-Base | V4-Flash-Base | V4-Pro-Base |
|---|---|---|---|
| MMLU (5-shot) | 87,8 % | 88,7 % | 90,1 % |
| MMLU-Redux (5-shot) | 87,5 % | 89,4 % | 90,8 % |
| MMLU-Pro (5-shot) | 65,5 % | 68,3 % | 73,5 % |
| HumanEval (Pass@1) | 62,8 % | 69,5 % | 76,8 % |
| GSM8K (8-shot) | 91,1 % | 90,8 % | 92,6 % |
| MATH (4-shot) | 60,5 % | 57,4 % | 64,5 % |
| Simple-QA verified | 28,3 % | 30,1 % | 55,2 % |
| LongBench-V2 | 40,2 % | 44,7 % | 51,5 % |
| AGIEval | 80,1 % | 82,6 % | 83,1 % |
Главные выводы:
- V4-Pro-Base опережает V3.2-Base практически по каждому бенчмарку
- Наиболее разительный прирост — в области знаний о мире (SimpleQA: 28,3 % → 55,2 %) и длинных контекстов (LongBench-V2: 40,2 % → 51,5 %)
- V4-Flash-Base, несмотря на меньший размер, показывает сопоставимые или лучшие результаты на большинстве задач — впечатляющая демонстрация эффективности
Программирование: огромный скачок
Прогресс в задачах программирования от V3.2 к V4-Pro особенно заметен — прежде всего в режиме Think Max:
| Бенчмарк | V3.2 (оценка) | V4-Pro Max |
|---|---|---|
| LiveCodeBench | ~75–80 % | 93,5 % |
| HumanEval (Base) | 62,8 % | 76,8 % |
| SWE-bench Verified | ~75 % | 80,6 % |
| Рейтинг Codeforces | ~2500–2700 | 3206 |
Прыжок рейтинга на Codeforces с уровня V3.2 до V4-Pro-Max — это качественный сдвиг: V4-Pro теперь входит в элиту соревновательного программирования, которой V3.2 достичь не мог.
Контекстное окно: от 128K до 1 миллиона токенов
Это заслуживает отдельного акцента. Контекстное окно в 128K токенов у DeepSeek V3.2 уже было щедрым — но крупные кодовые базы, объёмные юридические документы или многокнижные исследовательские материалы всё равно требовали стратегии дробления и суммаризации.
Контекст V4 в 1 миллион токенов полностью устраняет любые обходные пути. Рабочий процесс меняется кардинально:
Схема работы V3.2 с большими документами:
- Разбить документ на фрагменты по 120K токенов
- Суммировать каждый фрагмент
- Объединить резюме и делать выводы
- Потерять точность и связность контекста
Схема работы V4:
- Загрузить весь документ в единый контекст
- Задать вопрос напрямую
- Получить связный и полный ответ
Новые решения в обучении
V4 внёс существенные изменения в процесс обучения по сравнению с V3.2:
| Новшество | V3.2 | V4 |
|---|---|---|
| Оптимизатор | Вариант AdamW | Muon |
| Остаточные соединения | Стандартные | mHC (Manifold-Constrained Hyper-Connections) |
| Обучающих токенов | ~18T | 32T+ |
| Пайплайн постобучения | SFT + RL | Двухэтапный: специализация экспертов → on-policy дистилляция |
| Механизм внимания | MLA (Multi-head Latent Attention) | Гибридное внимание (CSA + HCA) |
Эти изменения усиливают друг друга: больше данных, улучшенный оптимизатор, более мощные остаточные соединения и революционный механизм внимания вместе обеспечивают наблюдаемый рост в бенчмарках.
Когда всё ещё стоит использовать V3.2?
Несмотря на преимущества V4, есть сценарии, где V3.2 остаётся предпочтительным:
- Готовые дообученные модели: если вы уже дообучили V3.2 под конкретную задачу, переход на V4 потребует значительных усилий
- Менее мощное железо: V3.2 с 671B параметров / 37B активных по-прежнему работает на системах, которые могут не справиться с V4-Flash (284B параметров)
- Стабильность: V4 — это превью-релиз; V3.2 — стабильная, проверенная временем модель
Заключение
Переход от DeepSeek V3.2 к V4 — один из крупнейших скачков возможностей в рамках одного поколения модели за недавнюю историю ИИ. Восьмикратное расширение контекстного окна, фундаментальные изменения архитектуры и улучшение по всем категориям бенчмарков делают V4 очевидным апгрейдом для большинства задач.
Разработчики и команды, использующие V3.2 сегодня — напрямую или через платформы вроде Framia.pro — могут перейти на V4-Flash или V4-Pro, просто сменив API-endpoint. Это обеспечит кардинально лучшую производительность при сопоставимых или меньших затратах.