DeepSeek V4: 1,6 трлн параметров всего и 49B активных

DeepSeek V4-Pro содержит 1,6 триллиона параметров, но при инференсе активирует лишь 49B на токен. Узнайте, что это означает и почему архитектура MoE делает модель такой эффективной.

Параметры DeepSeek V4: 1,6 триллиона всего, 49B активных — полный разбор

Когда DeepSeek объявил, что V4-Pro имеет 1,6 триллиона параметров, многие не поверили своим глазам. Это больше, чем у большинства существующих open-weight моделей. Но вот ключевой нюанс: из этих 1,6 триллиона параметров при инференсе активируется лишь 49 миллиардов для каждого токена.

Именно это различие определяет то, почему DeepSeek V4 одновременно мощный и практически применимый.

Параметры DeepSeek V4 — краткий обзор

Модель	Всего параметров	Активных параметров	Размер загрузки
DeepSeek-V4-Pro	1,6 трлн	49 млрд	~865 ГБ
DeepSeek-V4-Flash	284 млрд	13 млрд	~160 ГБ
DeepSeek-V3.2 (предшественник)	671 млрд	37 млрд	~380 ГБ

Для сравнения: V4-Pro более чем в два раза превышает V3.2 по общему объёму, тогда как V4-Flash составляет примерно 42% от размера V3.2 — что делает Flash впечатляюще мощной облегчённой моделью.

Что реально означают «1,6 триллиона параметров»?

Параметры — это числовые веса, которые нейронная сеть усваивает в процессе обучения. В ходе тренировки эти веса корректируются для минимизации ошибки предсказания на огромном наборе данных (в случае DeepSeek V4 — более 32 триллионов токенов). При инференсе именно эти веса определяют, как модель реагирует на любой входящий запрос.

Большее количество параметров, как правило, позволяет модели:

Хранить больше фактических знаний
Улавливать более тонкие языковые закономерности
Лучше обобщать на редкие или сложные задачи

Имея 1,6 трлн параметров, V4-Pro — одна из крупнейших open-weight моделей, когда-либо выпущенных: исключительная широта знаний и глубина рассуждений гарантированы.

Архитектура Mixture of Experts (MoE): почему активируется лишь 49B

Вот где начинается самое интересное. DeepSeek V4 — это модель Mixture of Experts (MoE), а не плотный трансформер, где каждый параметр срабатывает при обработке каждого токена.

В модели MoE:

Сеть содержит множество специализированных подсетей-«экспертов»
Для каждого токена маршрутизатор выбирает лишь небольшое подмножество экспертов для активации
Только эти эксперты участвуют в формировании выходных данных

Для DeepSeek-V4-Pro маршрутизатор активирует 49 миллиардов параметров на токен из 1,6 трлн — около 3% сети. Это даёт вам знания модели на 1,6 трлн параметров при вычислительном бюджете всего 49 млрд.

Именно поэтому MoE-модели могут быть исключительно мощными, не требуя пропорционально большего объёма вычислений по сравнению с куда более компактными плотными моделями.

Точность: смешанная FP4 + FP8

Веса DeepSeek V4 хранятся не в полной 32-битной точности. Вместо этого:

Параметры экспертов MoE используют FP4 (4-битная плавающая точка)
Большинство остальных параметров используют FP8 (8-битная плавающая точка)

Этот подход со смешанной точностью резко снижает потребление памяти без существенного ущерба для качества модели, делая её запуск на реалистичном железе вполне осуществимым (подробнее — в руководстве по локальному развёртыванию).

Базовые модели (V4-Pro-Base и V4-Flash-Base) повсеместно используют смешанную точность FP8.

Сравнение параметров V4-Pro с конкурентами

Модель	Параметров (всего)	Параметров (активных)	Open Weight?
DeepSeek-V4-Pro	1,6 трлн	49 млрд	✅ Да (MIT)
DeepSeek-V3.2	671 млрд	37 млрд	✅ Да
GPT-5.5	Не раскрыто	Не раскрыто	❌ Нет
Claude Opus 4.7	Не раскрыто	Не раскрыто	❌ Нет
Gemini-3.1-Pro	Не раскрыто	Не раскрыто	❌ Нет

Главное преимущество: DeepSeek V4-Pro — крупнейшая open-weight модель из доступных сегодня, и в отличие от закрытых конкурентов, вы можете сами изучать, дообучать и развёртывать её.

Что означают 284 млрд параметров DeepSeek V4-Flash

V4-Flash с 284 млрд всего / 13 млрд активных — тоже весьма впечатляющий вариант. При 13 млрд активных параметрах на токен по вычислительным затратам она сопоставима с моделями средней плотности типа Llama 3.3 70B — но несёт в себе знания и архитектурные улучшения системы с суммарными 284 млрд параметрами.

На практике:

Flash достигает результатов, близких к Pro, на простых задачах и задачах средней сложности
При увеличении «думательного бюджета» (режим Think Max) Flash показывает результаты рассуждений, сопоставимые с устаревшими флагманскими моделями
Flash требует значительно меньше памяти GPU и обходится примерно в 10 раз дешевле через API

Для разработчиков, создающих высоконагруженные приложения на таких платформах, как Framia.pro, параметрическая эффективность Flash делает её идеальной для экономичных и высокопроизводительных творческих ИИ-задач.

Почему количество параметров важно именно для вашего случая

Практический вывод:

Выбирайте V4-Pro, когда вам нужна максимальная глубина знаний, первоклассное кодирование, сложный анализ длинных документов или сравнительное тестирование с лучшими мировыми моделями
Выбирайте V4-Flash, когда важны скорость, экономичность или вы выполняете высокообъёмные API-запросы с ограниченным бюджетом

Обе модели разделяют одни и те же архитектурные инновации — механизм гибридного внимания (CSA + HCA), mHC и оптимизатор Muon — единственная существенная разница заключается в масштабе параметров и вытекающем отсюда потолке производительности.

Заключение

1,6 триллиона параметров DeepSeek V4-Pro делают его самой мощной open-weight LLM на сегодняшний день — но настоящая магия кроется в MoE-архитектуре, которая удерживает стоимость инференса в разумных пределах. На каждый токен активируется лишь 49 миллиардов параметров — то есть вы получаете знания триллионного масштаба при ничтожной доле вычислительных затрат.

Понимание этого различия критически важно для всех, кто развёртывает DeepSeek V4 в производственной среде — независимо от того, запускаете ли вы модель локально или обращаетесь к ней через API.