Архитектура модели DeepSeek V4: гибридное внимание, mHC и MoE — подробный разбор
DeepSeek V4 — это не просто увеличенная версия V3. Модель вводит ряд фундаментальных архитектурных изменений, которые радикально повышают эффективность, особенно при работе с длинным контекстом. Если вы хотите понять, почему DeepSeek V4 по умолчанию работает с 1 миллионом токенов — и делает это с гораздо меньшими вычислительными затратами, чем любая предыдущая модель, — это руководство разберёт каждое ключевое нововведение.
Обзор: четыре ключевых архитектурных столпа
- Mixture of Experts (MoE) — разреженная активация для вычислительной эффективности
- Гибридная архитектура внимания (CSA + HCA) — ключ к эффективности при контексте в 1 млн токенов
- Гиперсвязи с ограничениями многообразия (mHC) — стабильное распространение сигнала
- Оптимизатор Muon — более быстрое и стабильное обучение
Рассмотрим каждый элемент подробно.
1. Mixture of Experts (MoE)
DeepSeek V4 использует архитектуру MoE в обоих вариантах: Pro (1,6T / 49B активных) и Flash (284B / 13B активных). MoE работает путём разделения слоёв прямого распространения модели на множество специализированных «экспертов», а обучаемый маршрутизатор выбирает наиболее релевантных экспертов для каждого токена.
Почему это важно: Вы получаете объём знаний модели с сотнями миллиардов или триллионами параметров, но при этом для каждого токена активируется лишь небольшая их часть. Стоимость вывода масштабируется с активными параметрами, а не с общим их числом — что делает MoE значительно более вычислительно эффективным, чем эквивалентные плотные модели.
Пайплайн дообучения DeepSeek включает характерный двухэтапный подход:
- Этап 1: Независимая специализация экспертов с помощью SFT и RL с GRPO
- Этап 2: Консолидация единой модели через онлайн-дистилляцию — слияние всей специализированной экспертизы в одну согласованную модель
2. Гибридная архитектура внимания: CSA + HCA
Это наиболее значимое нововведение DeepSeek V4 и причина, по которой 1 миллион токенов стал стандартной длиной контекста.
Проблема стандартного внимания при длинном контексте
Стандартное внимание трансформера масштабируется квадратично с длиной последовательности. При 1 миллионе токенов это потребовало бы астрономического объёма памяти (KV-кэш) и вычислительных ресурсов — что делает задачу практически невыполнимой.
Решение DeepSeek: два взаимодополняющих механизма внимания
Сжатое разреженное внимание (CSA)
- Применяет пословное сжатие, уменьшая количество пар ключ-значение, которые нужно хранить и извлекать
- Позволяет модели эффективно обращаться к удалённому контексту, не сохраняя всю последовательность в полном разрешении
Сильно сжатое внимание (HCA)
- Идёт ещё дальше, применяя агрессивное сжатие к токенам, очень далёким от текущей позиции
- По сути говорит модели: «для токенов из далёкого прошлого храни сильно сжатое резюме — не пытайся запомнить каждую деталь»
Вместе CSA и HCA создают многоуровневую систему памяти: недавние токены получают полное внимание, несколько более далёкие — сжатое внимание, а очень далёкие — сильно сжатое внимание. Это отражает реальный принцип работы кратковременной памяти человека.
Результат: впечатляющий прирост эффективности
В сценарии с контекстом в 1 млн токенов:
- V4-Pro требует лишь 27% операций с плавающей точкой при выводе одного токена по сравнению с V3.2
- V4-Pro требует лишь 10% памяти KV-кэша по сравнению с V3.2
Это примерно 3,7-кратное снижение вычислений и 10-кратное снижение памяти — что позволяет работать с контекстом в 1 млн токенов на оборудовании, невозможном для V3.2.
3. Гиперсвязи с ограничениями многообразия (mHC)
По мере того как модели масштабируются до триллионов параметров в сотнях слоёв, типичным режимом отказа становится деградация градиента — сигналы становятся слишком слабыми или зашумлёнными для эффективного распространения через глубокие сети.
Решение DeepSeek — mHC (Manifold-Constrained Hyper-Connections), усиливающий обычные остаточные соединения путём ограничения обновлений весов лежащим на римановом многообразии. Простыми словами, mHC:
- Усиливает остаточный путь между слоями трансформера
- Стабилизирует прохождение сигналов через глубину сети
- Сохраняет выразительность модели, предотвращая взрыв или затухание градиента
Практический эффект: V4-Pro с 1,6T параметров можно надёжно обучать в масштабе, который дестабилизировал бы большинство других архитектур.
4. Оптимизатор Muon
DeepSeek V4 заменяет стандартный оптимизатор AdamW на оптимизатор Muon (сокращение от Momentum + Orthogonalization). Muon:
- Применяет шаг ортогонализации к обновлениям градиента, предотвращая избыточные обновления в коррелированных направлениях
- Достигает более быстрой сходимости — модель извлекает больше из каждого шага обучения
- Обеспечивает большую стабильность обучения — особенно важно при предобучении на более 32T токенов
Как V4-Pro, так и V4-Flash прошли предобучение на более чем 32 триллионах разнообразных высококачественных токенов с использованием Muon, что обеспечивает моделям исключительный охват мировых знаний, кода, математики и многоязычных текстов.
Три режима рассуждения: архитектура встречает вывод
Архитектура обеспечивает гибкую трёхрежимную систему вывода:
| Режим | Поведение | Применение |
|---|---|---|
| Non-think | Без явной цепочки рассуждений | Быстрые запросы, простые задачи |
| Think High | Управляемая цепочка рассуждений | Сложные рассуждения, планирование |
| Think Max | Расширенные, исчерпывающие рассуждения | Математические олимпиады, сложное программирование |
Think Max требует не менее 384K токенов контекстного окна для корректной работы. Это легко доступно в рамках лимита V4 в 1 млн токенов.
Сравнение с архитектурой DeepSeek V3.2
DeepSeek-V3.2 использовал 671B суммарных / 37B активных параметров и другую схему внимания. При переходе на V4:
- Суммарное число параметров почти утроилось (671B → 1,6T для Pro)
- Активные параметры выросли с 37B → 49B
- KV-кэш для контекста в 1 млн токенов уменьшился в 10 раз
- Вычисления на токен сократились примерно на 73%
- Новый оптимизатор (Muon vs. вариант AdamW)
- Новый пайплайн обучения (двухэтапная консолидация экспертов)
Для платформ вроде Framia.pro, которые обеспечивают работу ИИ-агентов в большом масштабе, подобные улучшения архитектурной эффективности напрямую выражаются в снижении затрат, ускорении ответов и более мощных творческих рабочих процессах.
Заключение
Архитектура DeepSeek V4 — это тщательно выверенная комбинация разреженности MoE, гибридного сжатия внимания, остаточных соединений с ограничениями многообразия и передового оптимизатора. Вместе эти нововведения делают контекст в 1 миллион токенов не просто теоретически возможным, но и практически стандартным — по цене, доступной разработчикам, исследователям и предприятиям по всему миру.