Обучение DeepSeek V4: полная методология создания модели (2026)

Как обучался DeepSeek V4: более 32 трлн токенов, оптимизатор Muon, mHC, гибридное внимание и двухэтапный пайплайн дообучения на Huawei Ascend 950PR. Полный разбор методологии.

Обучение DeepSeek V4: как была создана модель

Понимание того, как обучался DeepSeek V4, помогает разобраться в причинах его высокой производительности — и какие архитектурные решения и решения в области данных привели к модели, превосходящей ожидания в задачах программирования, логического вывода и обработки длинного контекста. В этом руководстве рассматриваются предобучение, дообучение V4 и ключевые инновации, отличающие его от предшественников.

Предобучение: масштаб и данные

Объём датасета: более 32 триллионов токенов

Как V4-Pro, так и V4-Flash прошли предобучение на более чем 32 триллионах токенов разнообразных высококачественных данных. Это почти вдвое больше оценочных 18 триллионов токенов предобучения DeepSeek-V3 и представляет собой колоссальные инвестиции в вычислительные ресурсы и подготовку данных.

Обучающий корпус охватывает:

Естественный язык — веб-тексты, книги, статьи на десятках языков
Код — исходный код на всех основных языках программирования
Математику — формальные доказательства, олимпиадные задачи, учебники
Научную литературу — исследовательские статьи по различным дисциплинам STEM
Многоязычный контент — широкое многоязычное покрытие, подтверждённое результатом MMMLU 90,3 %

Почему больше данных имеет значение

Зависимость между масштабом обучающих данных и возможностями модели не является линейной — однако на уровне передовых моделей больший объём разнообразных высококачественных данных неизменно улучшает широту знаний, точность фактов и способность к обобщению.

Резкий скачок V4-Pro-Base в SimpleQA-Verified (55,2 % против 28,3 % у V3.2) отражает одновременно рост масштаба данных и улучшение их отбора: модель попросту усвоила значительно больше знаний о мире.

Оптимизатор Muon

DeepSeek заменил стандартный оптимизатор AdamW на оптимизатор Muon для V4.

Что делает Muon

Стандартные оптимизаторы на базе Adam обновляют параметры на основе направления и величины градиента. Muon добавляет шаг ортогонализации: перед применением обновления градиента удаляются корреляции между текущим обновлением и предыдущими направлениями обновлений.

Результат:

Более быстрая сходимость: из каждого шага обучения извлекается больше полезной информации
Большая стабильность: ортогонализированные обновления реже вызывают осцилляции или расходимость
Лучшая масштабируемость: свойства стабильности Muon особенно ценны при масштабе V4 (1,6 трлн параметров)

Это можно представить как более эффективное исследование пространства параметров: Muon исключает избыточные шаги, гарантируя, что каждое обновление градиента движется в действительно новом направлении.

Архитектурные инновации в ходе предобучения

Гибридная архитектура внимания (CSA + HCA)

В отличие от V3.2, использовавшей Multi-head Latent Attention (MLA), V4 обучается с нуля с гибридной архитектурой внимания. Это означает, что внутренние представления модели формируются механизмом CSA + HCA с самого начала — а не добавляются поверх устаревшей архитектуры.

Именно поэтому V4 более естественно справляется с контекстами в 1 миллион токенов: паттерны внимания, усвоенные в ходе предобучения, оптимизированы под иерархическую структуру сжатия.

Гиперсоединения с многообразным ограничением (mHC)

mHC заменяет стандартные остаточные связи по всей сети. Предобучение с mHC с самого начала означает, что весовые матрицы модели развиваются внутри структурно ограниченного пространства, способствующего стабильному распространению сигнала.

Практический эффект: обучение модели с 1,6 трлн параметров на 32+ трлн токенах становится реализуемым без катастрофической нестабильности, которая преследует попытки масштабировать стандартные архитектуры до такого размера.

Дообучение: двухэтапный пайплайн

Этап 1: независимое развитие экспертов

Отдельные эксперты архитектуры MoE обучаются независимо для специализации по доменам:

Supervised Fine-Tuning (SFT):

Высококачественные размеченные примеры в домене каждого эксперта
Обучает модель точно следовать инструкциям в каждой специализации
Охватывает программирование, математику, науку, язык, общие знания и безопасность

Обучение с подкреплением с GRPO:

Group Relative Policy Optimization вознаграждает модель за генерацию ответов, более качественных относительно группы образцов
Применяется независимо к каждому домену/эксперту
Ориентирует поведение экспертов на предпочтения людей без необходимости в отдельной модели вознаграждения

Этап 2: консолидация единой модели

После этапа 1 независимо обученные эксперты объединяются в единую модель через дистилляцию на основе политики (on-policy distillation):

Специализированная модель этапа 1 генерирует выходные данные на разнообразных задачах
Финальная модель обучается воспроизводить (дистиллировать) эти выходные данные
Механизм маршрутизации обучается активировать нужных экспертов для каждой задачи

Именно эта фаза консолидации обеспечивает V4-Pro необычное сочетание глубокой компетентности в принципиально разных доменах — каждый эксперт по-настоящему специализирован, а маршрутизатор научился использовать их соответствующим образом.

Аппаратное обеспечение: Huawei Ascend 950PR

Один из наиболее значимых фактов об обучении V4 касается используемого оборудования:

V4 был обучен на чипах Huawei Ascend 950PR — а не на A100 или H100 от NVIDIA.

Это влечёт ряд важных следствий:

Техническое: Huawei Ascend 950PR — высокопроизводительный ИИ-ускоритель с конкурентоспособной пропускной способностью для обучения масштабных моделей. Результаты V4 доказывают, что обучение передовых ИИ-моделей достижимо на этом оборудовании.

Геополитическое: Американские экспортные ограничения лимитируют доступ китайских компаний к наиболее передовым чипам NVIDIA. Успех DeepSeek в обучении V4 на оборудовании Ascend демонстрирует, что возможности отечественных ИИ-чипов Китая значительно выше, чем многие предполагали.

Стратегическое: Опираясь на отечественное оборудование, DeepSeek (и в более широком смысле китайская экосистема ИИ) снижает зависимость от контролируемых США цепочек поставок в разработке передовых ИИ-систем.

Выравнивание после дообучения

После двухэтапного пайплайна RLHF V4 проходит тонкую настройку выравнивания с акцентом на безопасность:

Дополнительные примеры SFT, охватывающие сценарии, связанные с безопасностью
Конституционные руководящие принципы, встроенные в следование инструкциям
Многоязычное выравнивание по безопасности для всех поддерживаемых V4 языков

Точный охват этапа безопасного дообучения DeepSeek не полностью документирован в публичном техническом отчёте, однако стандартная отраслевая практика и послужной список DeepSeek по предыдущим моделям свидетельствуют о всестороннем покрытии типичных вредоносных сценариев использования.

Стоимость обучения: история эффективности

DeepSeek уже получил признание за достижение передовых результатов при значительно более низких заявленных затратах на обучение по сравнению с западными конкурентами. Стоимость обучения V4 официально не раскрывалась, однако ряд факторов указывает на сохранение преимуществ в эффективности:

Оптимизатор Muon: меньше бесполезных шагов по градиенту
Стабильность mHC: меньше вычислительных потерь из-за нестабильности обучения
Разреженность MoE: всего 49 млрд активных параметров на токен, а не 1,6 трлн
Оптимизация Ascend 950PR: разработан специально для данного типа обучения

Сочетание архитектурных улучшений и улучшений оптимизатора позволяет V4 извлекать больше возможностей на каждый FLOP обучения, чем предшествующие подходы.

От V3.2 к V4: что изменилось в обучении

Аспект обучения	V3.2	V4
Оптимизатор	Вариант AdamW	Muon
Остаточные связи	Стандартные	mHC
Механизм внимания	MLA	Гибридный (CSA + HCA)
Токены предобучения	~18 трлн	32 трлн+
Пайплайн дообучения	SFT + RL	Двухэтапный: специализация + консолидация
Аппаратное обеспечение	NVIDIA (эквивалент H800)	Huawei Ascend 950PR

Значение для отрасли

Методология обучения V4 — в частности оптимизатор Muon, mHC и двухэтапное дообучение — открыто задокументирована в техническом отчёте и доступна исследовательскому сообществу для изучения и воспроизведения. Прозрачность DeepSeek отражает его культуру, ориентированную прежде всего на исследования.

Платформы вроде Framia.pro, интегрирующие передовые возможности ИИ, извлекают выгоду из этой культуры обмена знаниями: по мере того как методы обучения тиражируются и совершенствуются в экосистеме, планка качества ИИ-моделей продолжает расти, улучшая каждое приложение, которое на них опирается.

Заключение

DeepSeek V4 был создан благодаря сочетанию беспрецедентного масштаба данных (32+ трлн токенов), архитектурных инноваций (гибридное внимание, mHC), улучшений оптимизатора (Muon) и нового двухэтапного пайплайна дообучения. Результатом стала модель, достигающая производительности переднего края на отечественном китайском аппаратном стеке — знаковое достижение, которое утверждает V4 как технический и стратегический рубеж в развитии искусственного интеллекта.