Архитектура модели DeepSeek V4: гибридное внимание, mHC и MoE — подробный разбор

DeepSeek V4 использует гибридное внимание (CSA + HCA), гиперсвязи с ограничениями многообразия (mHC) и оптимизатор Muon. Разбираем, что даёт каждое нововведение.

by Framia

Архитектура модели DeepSeek V4: гибридное внимание, mHC и MoE — подробный разбор

DeepSeek V4 — это не просто увеличенная версия V3. Модель вводит ряд фундаментальных архитектурных изменений, которые радикально повышают эффективность, особенно при работе с длинным контекстом. Если вы хотите понять, почему DeepSeek V4 по умолчанию работает с 1 миллионом токенов — и делает это с гораздо меньшими вычислительными затратами, чем любая предыдущая модель, — это руководство разберёт каждое ключевое нововведение.


Обзор: четыре ключевых архитектурных столпа

  1. Mixture of Experts (MoE) — разреженная активация для вычислительной эффективности
  2. Гибридная архитектура внимания (CSA + HCA) — ключ к эффективности при контексте в 1 млн токенов
  3. Гиперсвязи с ограничениями многообразия (mHC) — стабильное распространение сигнала
  4. Оптимизатор Muon — более быстрое и стабильное обучение

Рассмотрим каждый элемент подробно.


1. Mixture of Experts (MoE)

DeepSeek V4 использует архитектуру MoE в обоих вариантах: Pro (1,6T / 49B активных) и Flash (284B / 13B активных). MoE работает путём разделения слоёв прямого распространения модели на множество специализированных «экспертов», а обучаемый маршрутизатор выбирает наиболее релевантных экспертов для каждого токена.

Почему это важно: Вы получаете объём знаний модели с сотнями миллиардов или триллионами параметров, но при этом для каждого токена активируется лишь небольшая их часть. Стоимость вывода масштабируется с активными параметрами, а не с общим их числом — что делает MoE значительно более вычислительно эффективным, чем эквивалентные плотные модели.

Пайплайн дообучения DeepSeek включает характерный двухэтапный подход:

  • Этап 1: Независимая специализация экспертов с помощью SFT и RL с GRPO
  • Этап 2: Консолидация единой модели через онлайн-дистилляцию — слияние всей специализированной экспертизы в одну согласованную модель

2. Гибридная архитектура внимания: CSA + HCA

Это наиболее значимое нововведение DeepSeek V4 и причина, по которой 1 миллион токенов стал стандартной длиной контекста.

Проблема стандартного внимания при длинном контексте

Стандартное внимание трансформера масштабируется квадратично с длиной последовательности. При 1 миллионе токенов это потребовало бы астрономического объёма памяти (KV-кэш) и вычислительных ресурсов — что делает задачу практически невыполнимой.

Решение DeepSeek: два взаимодополняющих механизма внимания

Сжатое разреженное внимание (CSA)

  • Применяет пословное сжатие, уменьшая количество пар ключ-значение, которые нужно хранить и извлекать
  • Позволяет модели эффективно обращаться к удалённому контексту, не сохраняя всю последовательность в полном разрешении

Сильно сжатое внимание (HCA)

  • Идёт ещё дальше, применяя агрессивное сжатие к токенам, очень далёким от текущей позиции
  • По сути говорит модели: «для токенов из далёкого прошлого храни сильно сжатое резюме — не пытайся запомнить каждую деталь»

Вместе CSA и HCA создают многоуровневую систему памяти: недавние токены получают полное внимание, несколько более далёкие — сжатое внимание, а очень далёкие — сильно сжатое внимание. Это отражает реальный принцип работы кратковременной памяти человека.

Результат: впечатляющий прирост эффективности

В сценарии с контекстом в 1 млн токенов:

  • V4-Pro требует лишь 27% операций с плавающей точкой при выводе одного токена по сравнению с V3.2
  • V4-Pro требует лишь 10% памяти KV-кэша по сравнению с V3.2

Это примерно 3,7-кратное снижение вычислений и 10-кратное снижение памяти — что позволяет работать с контекстом в 1 млн токенов на оборудовании, невозможном для V3.2.


3. Гиперсвязи с ограничениями многообразия (mHC)

По мере того как модели масштабируются до триллионов параметров в сотнях слоёв, типичным режимом отказа становится деградация градиента — сигналы становятся слишком слабыми или зашумлёнными для эффективного распространения через глубокие сети.

Решение DeepSeek — mHC (Manifold-Constrained Hyper-Connections), усиливающий обычные остаточные соединения путём ограничения обновлений весов лежащим на римановом многообразии. Простыми словами, mHC:

  • Усиливает остаточный путь между слоями трансформера
  • Стабилизирует прохождение сигналов через глубину сети
  • Сохраняет выразительность модели, предотвращая взрыв или затухание градиента

Практический эффект: V4-Pro с 1,6T параметров можно надёжно обучать в масштабе, который дестабилизировал бы большинство других архитектур.


4. Оптимизатор Muon

DeepSeek V4 заменяет стандартный оптимизатор AdamW на оптимизатор Muon (сокращение от Momentum + Orthogonalization). Muon:

  • Применяет шаг ортогонализации к обновлениям градиента, предотвращая избыточные обновления в коррелированных направлениях
  • Достигает более быстрой сходимости — модель извлекает больше из каждого шага обучения
  • Обеспечивает большую стабильность обучения — особенно важно при предобучении на более 32T токенов

Как V4-Pro, так и V4-Flash прошли предобучение на более чем 32 триллионах разнообразных высококачественных токенов с использованием Muon, что обеспечивает моделям исключительный охват мировых знаний, кода, математики и многоязычных текстов.


Три режима рассуждения: архитектура встречает вывод

Архитектура обеспечивает гибкую трёхрежимную систему вывода:

Режим Поведение Применение
Non-think Без явной цепочки рассуждений Быстрые запросы, простые задачи
Think High Управляемая цепочка рассуждений Сложные рассуждения, планирование
Think Max Расширенные, исчерпывающие рассуждения Математические олимпиады, сложное программирование

Think Max требует не менее 384K токенов контекстного окна для корректной работы. Это легко доступно в рамках лимита V4 в 1 млн токенов.


Сравнение с архитектурой DeepSeek V3.2

DeepSeek-V3.2 использовал 671B суммарных / 37B активных параметров и другую схему внимания. При переходе на V4:

  • Суммарное число параметров почти утроилось (671B → 1,6T для Pro)
  • Активные параметры выросли с 37B → 49B
  • KV-кэш для контекста в 1 млн токенов уменьшился в 10 раз
  • Вычисления на токен сократились примерно на 73%
  • Новый оптимизатор (Muon vs. вариант AdamW)
  • Новый пайплайн обучения (двухэтапная консолидация экспертов)

Для платформ вроде Framia.pro, которые обеспечивают работу ИИ-агентов в большом масштабе, подобные улучшения архитектурной эффективности напрямую выражаются в снижении затрат, ускорении ответов и более мощных творческих рабочих процессах.


Заключение

Архитектура DeepSeek V4 — это тщательно выверенная комбинация разреженности MoE, гибридного сжатия внимания, остаточных соединений с ограничениями многообразия и передового оптимизатора. Вместе эти нововведения делают контекст в 1 миллион токенов не просто теоретически возможным, но и практически стандартным — по цене, доступной разработчикам, исследователям и предприятиям по всему миру.