Параметры DeepSeek V4: 1,6 триллиона всего, 49B активных — полный разбор
Когда DeepSeek объявил, что V4-Pro имеет 1,6 триллиона параметров, многие не поверили своим глазам. Это больше, чем у большинства существующих open-weight моделей. Но вот ключевой нюанс: из этих 1,6 триллиона параметров при инференсе активируется лишь 49 миллиардов для каждого токена.
Именно это различие определяет то, почему DeepSeek V4 одновременно мощный и практически применимый.
Параметры DeepSeek V4 — краткий обзор
| Модель | Всего параметров | Активных параметров | Размер загрузки |
|---|---|---|---|
| DeepSeek-V4-Pro | 1,6 трлн | 49 млрд | ~865 ГБ |
| DeepSeek-V4-Flash | 284 млрд | 13 млрд | ~160 ГБ |
| DeepSeek-V3.2 (предшественник) | 671 млрд | 37 млрд | ~380 ГБ |
Для сравнения: V4-Pro более чем в два раза превышает V3.2 по общему объёму, тогда как V4-Flash составляет примерно 42% от размера V3.2 — что делает Flash впечатляюще мощной облегчённой моделью.
Что реально означают «1,6 триллиона параметров»?
Параметры — это числовые веса, которые нейронная сеть усваивает в процессе обучения. В ходе тренировки эти веса корректируются для минимизации ошибки предсказания на огромном наборе данных (в случае DeepSeek V4 — более 32 триллионов токенов). При инференсе именно эти веса определяют, как модель реагирует на любой входящий запрос.
Большее количество параметров, как правило, позволяет модели:
- Хранить больше фактических знаний
- Улавливать более тонкие языковые закономерности
- Лучше обобщать на редкие или сложные задачи
Имея 1,6 трлн параметров, V4-Pro — одна из крупнейших open-weight моделей, когда-либо выпущенных: исключительная широта знаний и глубина рассуждений гарантированы.
Архитектура Mixture of Experts (MoE): почему активируется лишь 49B
Вот где начинается самое интересное. DeepSeek V4 — это модель Mixture of Experts (MoE), а не плотный трансформер, где каждый параметр срабатывает при обработке каждого токена.
В модели MoE:
- Сеть содержит множество специализированных подсетей-«экспертов»
- Для каждого токена маршрутизатор выбирает лишь небольшое подмножество экспертов для активации
- Только эти эксперты участвуют в формировании выходных данных
Для DeepSeek-V4-Pro маршрутизатор активирует 49 миллиардов параметров на токен из 1,6 трлн — около 3% сети. Это даёт вам знания модели на 1,6 трлн параметров при вычислительном бюджете всего 49 млрд.
Именно поэтому MoE-модели могут быть исключительно мощными, не требуя пропорционально большего объёма вычислений по сравнению с куда более компактными плотными моделями.
Точность: смешанная FP4 + FP8
Веса DeepSeek V4 хранятся не в полной 32-битной точности. Вместо этого:
- Параметры экспертов MoE используют FP4 (4-битная плавающая точка)
- Большинство остальных параметров используют FP8 (8-битная плавающая точка)
Этот подход со смешанной точностью резко снижает потребление памяти без существенного ущерба для качества модели, делая её запуск на реалистичном железе вполне осуществимым (подробнее — в руководстве по локальному развёртыванию).
Базовые модели (V4-Pro-Base и V4-Flash-Base) повсеместно используют смешанную точность FP8.
Сравнение параметров V4-Pro с конкурентами
| Модель | Параметров (всего) | Параметров (активных) | Open Weight? |
|---|---|---|---|
| DeepSeek-V4-Pro | 1,6 трлн | 49 млрд | ✅ Да (MIT) |
| DeepSeek-V3.2 | 671 млрд | 37 млрд | ✅ Да |
| GPT-5.5 | Не раскрыто | Не раскрыто | ❌ Нет |
| Claude Opus 4.7 | Не раскрыто | Не раскрыто | ❌ Нет |
| Gemini-3.1-Pro | Не раскрыто | Не раскрыто | ❌ Нет |
Главное преимущество: DeepSeek V4-Pro — крупнейшая open-weight модель из доступных сегодня, и в отличие от закрытых конкурентов, вы можете сами изучать, дообучать и развёртывать её.
Что означают 284 млрд параметров DeepSeek V4-Flash
V4-Flash с 284 млрд всего / 13 млрд активных — тоже весьма впечатляющий вариант. При 13 млрд активных параметрах на токен по вычислительным затратам она сопоставима с моделями средней плотности типа Llama 3.3 70B — но несёт в себе знания и архитектурные улучшения системы с суммарными 284 млрд параметрами.
На практике:
- Flash достигает результатов, близких к Pro, на простых задачах и задачах средней сложности
- При увеличении «думательного бюджета» (режим Think Max) Flash показывает результаты рассуждений, сопоставимые с устаревшими флагманскими моделями
- Flash требует значительно меньше памяти GPU и обходится примерно в 10 раз дешевле через API
Для разработчиков, создающих высоконагруженные приложения на таких платформах, как Framia.pro, параметрическая эффективность Flash делает её идеальной для экономичных и высокопроизводительных творческих ИИ-задач.
Почему количество параметров важно именно для вашего случая
Практический вывод:
- Выбирайте V4-Pro, когда вам нужна максимальная глубина знаний, первоклассное кодирование, сложный анализ длинных документов или сравнительное тестирование с лучшими мировыми моделями
- Выбирайте V4-Flash, когда важны скорость, экономичность или вы выполняете высокообъёмные API-запросы с ограниченным бюджетом
Обе модели разделяют одни и те же архитектурные инновации — механизм гибридного внимания (CSA + HCA), mHC и оптимизатор Muon — единственная существенная разница заключается в масштабе параметров и вытекающем отсюда потолке производительности.
Заключение
1,6 триллиона параметров DeepSeek V4-Pro делают его самой мощной open-weight LLM на сегодняшний день — но настоящая магия кроется в MoE-архитектуре, которая удерживает стоимость инференса в разумных пределах. На каждый токен активируется лишь 49 миллиардов параметров — то есть вы получаете знания триллионного масштаба при ничтожной доле вычислительных затрат.
Понимание этого различия критически важно для всех, кто развёртывает DeepSeek V4 в производственной среде — независимо от того, запускаете ли вы модель локально или обращаетесь к ней через API.