Параметры DeepSeek V4: 1,6 триллиона всего, 49B активных — полный разбор

DeepSeek V4-Pro содержит 1,6 триллиона параметров, но при инференсе активирует лишь 49B на токен. Узнайте, что это означает и почему архитектура MoE делает модель такой эффективной.

by Framia

Параметры DeepSeek V4: 1,6 триллиона всего, 49B активных — полный разбор

Когда DeepSeek объявил, что V4-Pro имеет 1,6 триллиона параметров, многие не поверили своим глазам. Это больше, чем у большинства существующих open-weight моделей. Но вот ключевой нюанс: из этих 1,6 триллиона параметров при инференсе активируется лишь 49 миллиардов для каждого токена.

Именно это различие определяет то, почему DeepSeek V4 одновременно мощный и практически применимый.


Параметры DeepSeek V4 — краткий обзор

Модель Всего параметров Активных параметров Размер загрузки
DeepSeek-V4-Pro 1,6 трлн 49 млрд ~865 ГБ
DeepSeek-V4-Flash 284 млрд 13 млрд ~160 ГБ
DeepSeek-V3.2 (предшественник) 671 млрд 37 млрд ~380 ГБ

Для сравнения: V4-Pro более чем в два раза превышает V3.2 по общему объёму, тогда как V4-Flash составляет примерно 42% от размера V3.2 — что делает Flash впечатляюще мощной облегчённой моделью.


Что реально означают «1,6 триллиона параметров»?

Параметры — это числовые веса, которые нейронная сеть усваивает в процессе обучения. В ходе тренировки эти веса корректируются для минимизации ошибки предсказания на огромном наборе данных (в случае DeepSeek V4 — более 32 триллионов токенов). При инференсе именно эти веса определяют, как модель реагирует на любой входящий запрос.

Большее количество параметров, как правило, позволяет модели:

  • Хранить больше фактических знаний
  • Улавливать более тонкие языковые закономерности
  • Лучше обобщать на редкие или сложные задачи

Имея 1,6 трлн параметров, V4-Pro — одна из крупнейших open-weight моделей, когда-либо выпущенных: исключительная широта знаний и глубина рассуждений гарантированы.


Архитектура Mixture of Experts (MoE): почему активируется лишь 49B

Вот где начинается самое интересное. DeepSeek V4 — это модель Mixture of Experts (MoE), а не плотный трансформер, где каждый параметр срабатывает при обработке каждого токена.

В модели MoE:

  • Сеть содержит множество специализированных подсетей-«экспертов»
  • Для каждого токена маршрутизатор выбирает лишь небольшое подмножество экспертов для активации
  • Только эти эксперты участвуют в формировании выходных данных

Для DeepSeek-V4-Pro маршрутизатор активирует 49 миллиардов параметров на токен из 1,6 трлн — около 3% сети. Это даёт вам знания модели на 1,6 трлн параметров при вычислительном бюджете всего 49 млрд.

Именно поэтому MoE-модели могут быть исключительно мощными, не требуя пропорционально большего объёма вычислений по сравнению с куда более компактными плотными моделями.


Точность: смешанная FP4 + FP8

Веса DeepSeek V4 хранятся не в полной 32-битной точности. Вместо этого:

  • Параметры экспертов MoE используют FP4 (4-битная плавающая точка)
  • Большинство остальных параметров используют FP8 (8-битная плавающая точка)

Этот подход со смешанной точностью резко снижает потребление памяти без существенного ущерба для качества модели, делая её запуск на реалистичном железе вполне осуществимым (подробнее — в руководстве по локальному развёртыванию).

Базовые модели (V4-Pro-Base и V4-Flash-Base) повсеместно используют смешанную точность FP8.


Сравнение параметров V4-Pro с конкурентами

Модель Параметров (всего) Параметров (активных) Open Weight?
DeepSeek-V4-Pro 1,6 трлн 49 млрд ✅ Да (MIT)
DeepSeek-V3.2 671 млрд 37 млрд ✅ Да
GPT-5.5 Не раскрыто Не раскрыто ❌ Нет
Claude Opus 4.7 Не раскрыто Не раскрыто ❌ Нет
Gemini-3.1-Pro Не раскрыто Не раскрыто ❌ Нет

Главное преимущество: DeepSeek V4-Pro — крупнейшая open-weight модель из доступных сегодня, и в отличие от закрытых конкурентов, вы можете сами изучать, дообучать и развёртывать её.


Что означают 284 млрд параметров DeepSeek V4-Flash

V4-Flash с 284 млрд всего / 13 млрд активных — тоже весьма впечатляющий вариант. При 13 млрд активных параметрах на токен по вычислительным затратам она сопоставима с моделями средней плотности типа Llama 3.3 70B — но несёт в себе знания и архитектурные улучшения системы с суммарными 284 млрд параметрами.

На практике:

  • Flash достигает результатов, близких к Pro, на простых задачах и задачах средней сложности
  • При увеличении «думательного бюджета» (режим Think Max) Flash показывает результаты рассуждений, сопоставимые с устаревшими флагманскими моделями
  • Flash требует значительно меньше памяти GPU и обходится примерно в 10 раз дешевле через API

Для разработчиков, создающих высоконагруженные приложения на таких платформах, как Framia.pro, параметрическая эффективность Flash делает её идеальной для экономичных и высокопроизводительных творческих ИИ-задач.


Почему количество параметров важно именно для вашего случая

Практический вывод:

  • Выбирайте V4-Pro, когда вам нужна максимальная глубина знаний, первоклассное кодирование, сложный анализ длинных документов или сравнительное тестирование с лучшими мировыми моделями
  • Выбирайте V4-Flash, когда важны скорость, экономичность или вы выполняете высокообъёмные API-запросы с ограниченным бюджетом

Обе модели разделяют одни и те же архитектурные инновации — механизм гибридного внимания (CSA + HCA), mHC и оптимизатор Muon — единственная существенная разница заключается в масштабе параметров и вытекающем отсюда потолке производительности.


Заключение

1,6 триллиона параметров DeepSeek V4-Pro делают его самой мощной open-weight LLM на сегодняшний день — но настоящая магия кроется в MoE-архитектуре, которая удерживает стоимость инференса в разумных пределах. На каждый токен активируется лишь 49 миллиардов параметров — то есть вы получаете знания триллионного масштаба при ничтожной доле вычислительных затрат.

Понимание этого различия критически важно для всех, кто развёртывает DeepSeek V4 в производственной среде — независимо от того, запускаете ли вы модель локально или обращаетесь к ней через API.