Обучение DeepSeek V4: как была создана модель

Как обучался DeepSeek V4: более 32 трлн токенов, оптимизатор Muon, mHC, гибридное внимание и двухэтапный пайплайн дообучения на Huawei Ascend 950PR. Полный разбор методологии.

by Framia

Обучение DeepSeek V4: как была создана модель

Понимание того, как обучался DeepSeek V4, помогает разобраться в причинах его высокой производительности — и какие архитектурные решения и решения в области данных привели к модели, превосходящей ожидания в задачах программирования, логического вывода и обработки длинного контекста. В этом руководстве рассматриваются предобучение, дообучение V4 и ключевые инновации, отличающие его от предшественников.


Предобучение: масштаб и данные

Объём датасета: более 32 триллионов токенов

Как V4-Pro, так и V4-Flash прошли предобучение на более чем 32 триллионах токенов разнообразных высококачественных данных. Это почти вдвое больше оценочных 18 триллионов токенов предобучения DeepSeek-V3 и представляет собой колоссальные инвестиции в вычислительные ресурсы и подготовку данных.

Обучающий корпус охватывает:

  • Естественный язык — веб-тексты, книги, статьи на десятках языков
  • Код — исходный код на всех основных языках программирования
  • Математику — формальные доказательства, олимпиадные задачи, учебники
  • Научную литературу — исследовательские статьи по различным дисциплинам STEM
  • Многоязычный контент — широкое многоязычное покрытие, подтверждённое результатом MMMLU 90,3 %

Почему больше данных имеет значение

Зависимость между масштабом обучающих данных и возможностями модели не является линейной — однако на уровне передовых моделей больший объём разнообразных высококачественных данных неизменно улучшает широту знаний, точность фактов и способность к обобщению.

Резкий скачок V4-Pro-Base в SimpleQA-Verified (55,2 % против 28,3 % у V3.2) отражает одновременно рост масштаба данных и улучшение их отбора: модель попросту усвоила значительно больше знаний о мире.


Оптимизатор Muon

DeepSeek заменил стандартный оптимизатор AdamW на оптимизатор Muon для V4.

Что делает Muon

Стандартные оптимизаторы на базе Adam обновляют параметры на основе направления и величины градиента. Muon добавляет шаг ортогонализации: перед применением обновления градиента удаляются корреляции между текущим обновлением и предыдущими направлениями обновлений.

Результат:

  • Более быстрая сходимость: из каждого шага обучения извлекается больше полезной информации
  • Большая стабильность: ортогонализированные обновления реже вызывают осцилляции или расходимость
  • Лучшая масштабируемость: свойства стабильности Muon особенно ценны при масштабе V4 (1,6 трлн параметров)

Это можно представить как более эффективное исследование пространства параметров: Muon исключает избыточные шаги, гарантируя, что каждое обновление градиента движется в действительно новом направлении.


Архитектурные инновации в ходе предобучения

Гибридная архитектура внимания (CSA + HCA)

В отличие от V3.2, использовавшей Multi-head Latent Attention (MLA), V4 обучается с нуля с гибридной архитектурой внимания. Это означает, что внутренние представления модели формируются механизмом CSA + HCA с самого начала — а не добавляются поверх устаревшей архитектуры.

Именно поэтому V4 более естественно справляется с контекстами в 1 миллион токенов: паттерны внимания, усвоенные в ходе предобучения, оптимизированы под иерархическую структуру сжатия.

Гиперсоединения с многообразным ограничением (mHC)

mHC заменяет стандартные остаточные связи по всей сети. Предобучение с mHC с самого начала означает, что весовые матрицы модели развиваются внутри структурно ограниченного пространства, способствующего стабильному распространению сигнала.

Практический эффект: обучение модели с 1,6 трлн параметров на 32+ трлн токенах становится реализуемым без катастрофической нестабильности, которая преследует попытки масштабировать стандартные архитектуры до такого размера.


Дообучение: двухэтапный пайплайн

Этап 1: независимое развитие экспертов

Отдельные эксперты архитектуры MoE обучаются независимо для специализации по доменам:

Supervised Fine-Tuning (SFT):

  • Высококачественные размеченные примеры в домене каждого эксперта
  • Обучает модель точно следовать инструкциям в каждой специализации
  • Охватывает программирование, математику, науку, язык, общие знания и безопасность

Обучение с подкреплением с GRPO:

  • Group Relative Policy Optimization вознаграждает модель за генерацию ответов, более качественных относительно группы образцов
  • Применяется независимо к каждому домену/эксперту
  • Ориентирует поведение экспертов на предпочтения людей без необходимости в отдельной модели вознаграждения

Этап 2: консолидация единой модели

После этапа 1 независимо обученные эксперты объединяются в единую модель через дистилляцию на основе политики (on-policy distillation):

  1. Специализированная модель этапа 1 генерирует выходные данные на разнообразных задачах
  2. Финальная модель обучается воспроизводить (дистиллировать) эти выходные данные
  3. Механизм маршрутизации обучается активировать нужных экспертов для каждой задачи

Именно эта фаза консолидации обеспечивает V4-Pro необычное сочетание глубокой компетентности в принципиально разных доменах — каждый эксперт по-настоящему специализирован, а маршрутизатор научился использовать их соответствующим образом.


Аппаратное обеспечение: Huawei Ascend 950PR

Один из наиболее значимых фактов об обучении V4 касается используемого оборудования:

V4 был обучен на чипах Huawei Ascend 950PR — а не на A100 или H100 от NVIDIA.

Это влечёт ряд важных следствий:

Техническое: Huawei Ascend 950PR — высокопроизводительный ИИ-ускоритель с конкурентоспособной пропускной способностью для обучения масштабных моделей. Результаты V4 доказывают, что обучение передовых ИИ-моделей достижимо на этом оборудовании.

Геополитическое: Американские экспортные ограничения лимитируют доступ китайских компаний к наиболее передовым чипам NVIDIA. Успех DeepSeek в обучении V4 на оборудовании Ascend демонстрирует, что возможности отечественных ИИ-чипов Китая значительно выше, чем многие предполагали.

Стратегическое: Опираясь на отечественное оборудование, DeepSeek (и в более широком смысле китайская экосистема ИИ) снижает зависимость от контролируемых США цепочек поставок в разработке передовых ИИ-систем.


Выравнивание после дообучения

После двухэтапного пайплайна RLHF V4 проходит тонкую настройку выравнивания с акцентом на безопасность:

  • Дополнительные примеры SFT, охватывающие сценарии, связанные с безопасностью
  • Конституционные руководящие принципы, встроенные в следование инструкциям
  • Многоязычное выравнивание по безопасности для всех поддерживаемых V4 языков

Точный охват этапа безопасного дообучения DeepSeek не полностью документирован в публичном техническом отчёте, однако стандартная отраслевая практика и послужной список DeepSeek по предыдущим моделям свидетельствуют о всестороннем покрытии типичных вредоносных сценариев использования.


Стоимость обучения: история эффективности

DeepSeek уже получил признание за достижение передовых результатов при значительно более низких заявленных затратах на обучение по сравнению с западными конкурентами. Стоимость обучения V4 официально не раскрывалась, однако ряд факторов указывает на сохранение преимуществ в эффективности:

  1. Оптимизатор Muon: меньше бесполезных шагов по градиенту
  2. Стабильность mHC: меньше вычислительных потерь из-за нестабильности обучения
  3. Разреженность MoE: всего 49 млрд активных параметров на токен, а не 1,6 трлн
  4. Оптимизация Ascend 950PR: разработан специально для данного типа обучения

Сочетание архитектурных улучшений и улучшений оптимизатора позволяет V4 извлекать больше возможностей на каждый FLOP обучения, чем предшествующие подходы.


От V3.2 к V4: что изменилось в обучении

Аспект обучения V3.2 V4
Оптимизатор Вариант AdamW Muon
Остаточные связи Стандартные mHC
Механизм внимания MLA Гибридный (CSA + HCA)
Токены предобучения ~18 трлн 32 трлн+
Пайплайн дообучения SFT + RL Двухэтапный: специализация + консолидация
Аппаратное обеспечение NVIDIA (эквивалент H800) Huawei Ascend 950PR

Значение для отрасли

Методология обучения V4 — в частности оптимизатор Muon, mHC и двухэтапное дообучение — открыто задокументирована в техническом отчёте и доступна исследовательскому сообществу для изучения и воспроизведения. Прозрачность DeepSeek отражает его культуру, ориентированную прежде всего на исследования.

Платформы вроде Framia.pro, интегрирующие передовые возможности ИИ, извлекают выгоду из этой культуры обмена знаниями: по мере того как методы обучения тиражируются и совершенствуются в экосистеме, планка качества ИИ-моделей продолжает расти, улучшая каждое приложение, которое на них опирается.


Заключение

DeepSeek V4 был создан благодаря сочетанию беспрецедентного масштаба данных (32+ трлн токенов), архитектурных инноваций (гибридное внимание, mHC), улучшений оптимизатора (Muon) и нового двухэтапного пайплайна дообучения. Результатом стала модель, достигающая производительности переднего края на отечественном китайском аппаратном стеке — знаковое достижение, которое утверждает V4 как технический и стратегический рубеж в развитии искусственного интеллекта.