Обучение DeepSeek V4: как была создана модель
Понимание того, как обучался DeepSeek V4, помогает разобраться в причинах его высокой производительности — и какие архитектурные решения и решения в области данных привели к модели, превосходящей ожидания в задачах программирования, логического вывода и обработки длинного контекста. В этом руководстве рассматриваются предобучение, дообучение V4 и ключевые инновации, отличающие его от предшественников.
Предобучение: масштаб и данные
Объём датасета: более 32 триллионов токенов
Как V4-Pro, так и V4-Flash прошли предобучение на более чем 32 триллионах токенов разнообразных высококачественных данных. Это почти вдвое больше оценочных 18 триллионов токенов предобучения DeepSeek-V3 и представляет собой колоссальные инвестиции в вычислительные ресурсы и подготовку данных.
Обучающий корпус охватывает:
- Естественный язык — веб-тексты, книги, статьи на десятках языков
- Код — исходный код на всех основных языках программирования
- Математику — формальные доказательства, олимпиадные задачи, учебники
- Научную литературу — исследовательские статьи по различным дисциплинам STEM
- Многоязычный контент — широкое многоязычное покрытие, подтверждённое результатом MMMLU 90,3 %
Почему больше данных имеет значение
Зависимость между масштабом обучающих данных и возможностями модели не является линейной — однако на уровне передовых моделей больший объём разнообразных высококачественных данных неизменно улучшает широту знаний, точность фактов и способность к обобщению.
Резкий скачок V4-Pro-Base в SimpleQA-Verified (55,2 % против 28,3 % у V3.2) отражает одновременно рост масштаба данных и улучшение их отбора: модель попросту усвоила значительно больше знаний о мире.
Оптимизатор Muon
DeepSeek заменил стандартный оптимизатор AdamW на оптимизатор Muon для V4.
Что делает Muon
Стандартные оптимизаторы на базе Adam обновляют параметры на основе направления и величины градиента. Muon добавляет шаг ортогонализации: перед применением обновления градиента удаляются корреляции между текущим обновлением и предыдущими направлениями обновлений.
Результат:
- Более быстрая сходимость: из каждого шага обучения извлекается больше полезной информации
- Большая стабильность: ортогонализированные обновления реже вызывают осцилляции или расходимость
- Лучшая масштабируемость: свойства стабильности Muon особенно ценны при масштабе V4 (1,6 трлн параметров)
Это можно представить как более эффективное исследование пространства параметров: Muon исключает избыточные шаги, гарантируя, что каждое обновление градиента движется в действительно новом направлении.
Архитектурные инновации в ходе предобучения
Гибридная архитектура внимания (CSA + HCA)
В отличие от V3.2, использовавшей Multi-head Latent Attention (MLA), V4 обучается с нуля с гибридной архитектурой внимания. Это означает, что внутренние представления модели формируются механизмом CSA + HCA с самого начала — а не добавляются поверх устаревшей архитектуры.
Именно поэтому V4 более естественно справляется с контекстами в 1 миллион токенов: паттерны внимания, усвоенные в ходе предобучения, оптимизированы под иерархическую структуру сжатия.
Гиперсоединения с многообразным ограничением (mHC)
mHC заменяет стандартные остаточные связи по всей сети. Предобучение с mHC с самого начала означает, что весовые матрицы модели развиваются внутри структурно ограниченного пространства, способствующего стабильному распространению сигнала.
Практический эффект: обучение модели с 1,6 трлн параметров на 32+ трлн токенах становится реализуемым без катастрофической нестабильности, которая преследует попытки масштабировать стандартные архитектуры до такого размера.
Дообучение: двухэтапный пайплайн
Этап 1: независимое развитие экспертов
Отдельные эксперты архитектуры MoE обучаются независимо для специализации по доменам:
Supervised Fine-Tuning (SFT):
- Высококачественные размеченные примеры в домене каждого эксперта
- Обучает модель точно следовать инструкциям в каждой специализации
- Охватывает программирование, математику, науку, язык, общие знания и безопасность
Обучение с подкреплением с GRPO:
- Group Relative Policy Optimization вознаграждает модель за генерацию ответов, более качественных относительно группы образцов
- Применяется независимо к каждому домену/эксперту
- Ориентирует поведение экспертов на предпочтения людей без необходимости в отдельной модели вознаграждения
Этап 2: консолидация единой модели
После этапа 1 независимо обученные эксперты объединяются в единую модель через дистилляцию на основе политики (on-policy distillation):
- Специализированная модель этапа 1 генерирует выходные данные на разнообразных задачах
- Финальная модель обучается воспроизводить (дистиллировать) эти выходные данные
- Механизм маршрутизации обучается активировать нужных экспертов для каждой задачи
Именно эта фаза консолидации обеспечивает V4-Pro необычное сочетание глубокой компетентности в принципиально разных доменах — каждый эксперт по-настоящему специализирован, а маршрутизатор научился использовать их соответствующим образом.
Аппаратное обеспечение: Huawei Ascend 950PR
Один из наиболее значимых фактов об обучении V4 касается используемого оборудования:
V4 был обучен на чипах Huawei Ascend 950PR — а не на A100 или H100 от NVIDIA.
Это влечёт ряд важных следствий:
Техническое: Huawei Ascend 950PR — высокопроизводительный ИИ-ускоритель с конкурентоспособной пропускной способностью для обучения масштабных моделей. Результаты V4 доказывают, что обучение передовых ИИ-моделей достижимо на этом оборудовании.
Геополитическое: Американские экспортные ограничения лимитируют доступ китайских компаний к наиболее передовым чипам NVIDIA. Успех DeepSeek в обучении V4 на оборудовании Ascend демонстрирует, что возможности отечественных ИИ-чипов Китая значительно выше, чем многие предполагали.
Стратегическое: Опираясь на отечественное оборудование, DeepSeek (и в более широком смысле китайская экосистема ИИ) снижает зависимость от контролируемых США цепочек поставок в разработке передовых ИИ-систем.
Выравнивание после дообучения
После двухэтапного пайплайна RLHF V4 проходит тонкую настройку выравнивания с акцентом на безопасность:
- Дополнительные примеры SFT, охватывающие сценарии, связанные с безопасностью
- Конституционные руководящие принципы, встроенные в следование инструкциям
- Многоязычное выравнивание по безопасности для всех поддерживаемых V4 языков
Точный охват этапа безопасного дообучения DeepSeek не полностью документирован в публичном техническом отчёте, однако стандартная отраслевая практика и послужной список DeepSeek по предыдущим моделям свидетельствуют о всестороннем покрытии типичных вредоносных сценариев использования.
Стоимость обучения: история эффективности
DeepSeek уже получил признание за достижение передовых результатов при значительно более низких заявленных затратах на обучение по сравнению с западными конкурентами. Стоимость обучения V4 официально не раскрывалась, однако ряд факторов указывает на сохранение преимуществ в эффективности:
- Оптимизатор Muon: меньше бесполезных шагов по градиенту
- Стабильность mHC: меньше вычислительных потерь из-за нестабильности обучения
- Разреженность MoE: всего 49 млрд активных параметров на токен, а не 1,6 трлн
- Оптимизация Ascend 950PR: разработан специально для данного типа обучения
Сочетание архитектурных улучшений и улучшений оптимизатора позволяет V4 извлекать больше возможностей на каждый FLOP обучения, чем предшествующие подходы.
От V3.2 к V4: что изменилось в обучении
| Аспект обучения | V3.2 | V4 |
|---|---|---|
| Оптимизатор | Вариант AdamW | Muon |
| Остаточные связи | Стандартные | mHC |
| Механизм внимания | MLA | Гибридный (CSA + HCA) |
| Токены предобучения | ~18 трлн | 32 трлн+ |
| Пайплайн дообучения | SFT + RL | Двухэтапный: специализация + консолидация |
| Аппаратное обеспечение | NVIDIA (эквивалент H800) | Huawei Ascend 950PR |
Значение для отрасли
Методология обучения V4 — в частности оптимизатор Muon, mHC и двухэтапное дообучение — открыто задокументирована в техническом отчёте и доступна исследовательскому сообществу для изучения и воспроизведения. Прозрачность DeepSeek отражает его культуру, ориентированную прежде всего на исследования.
Платформы вроде Framia.pro, интегрирующие передовые возможности ИИ, извлекают выгоду из этой культуры обмена знаниями: по мере того как методы обучения тиражируются и совершенствуются в экосистеме, планка качества ИИ-моделей продолжает расти, улучшая каждое приложение, которое на них опирается.
Заключение
DeepSeek V4 был создан благодаря сочетанию беспрецедентного масштаба данных (32+ трлн токенов), архитектурных инноваций (гибридное внимание, mHC), улучшений оптимизатора (Muon) и нового двухэтапного пайплайна дообучения. Результатом стала модель, достигающая производительности переднего края на отечественном китайском аппаратном стеке — знаковое достижение, которое утверждает V4 как технический и стратегический рубеж в развитии искусственного интеллекта.