Полная карточка модели DeepSeek V4: характеристики, справочник API, цены, таблица бенчмарков, руководство по локальному развёртыванию и технические примечания для V4-Pro и V4-Flash.
Карточка модели DeepSeek V4: Полный технический справочник для разработчиков
Карточка модели DeepSeek V4 содержит всё необходимое для изучения и развёртывания серии V4. В этом справочнике собраны полные технические характеристики, методы доступа, известные ограничения и рекомендации по использованию как V4-Pro, так и V4-Flash.
Идентификация модели
| Поле |
DeepSeek-V4-Pro |
DeepSeek-V4-Flash |
| ID модели |
deepseek-v4-pro |
deepseek-v4-flash |
| Разработчик |
DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.) |
|
| Дата выпуска |
24 апреля 2026 г. (предварительная версия) |
|
| Лицензия |
MIT License |
|
| Тип модели |
Transformer только-декодер, MoE |
|
| Архитектура |
Гибридное внимание (CSA + HCA) + mHC |
|
| Всего параметров |
1,6 трлн |
284 млрд |
| Активных параметров |
49 млрд |
13 млрд |
| Длина контекста |
1 000 000 токенов |
1 000 000 токенов |
| Точность |
FP4 + FP8 смешанная |
FP4 + FP8 смешанная |
| Размер загрузки |
~865 ГБ |
~160 ГБ |
Карта репозиториев HuggingFace
| Репозиторий |
Тип |
URL |
| DeepSeek-V4-Pro |
Instruct (дообучен с RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro |
| DeepSeek-V4-Pro-Base |
Предобученная база |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base |
| DeepSeek-V4-Flash |
Instruct (дообучен с RLHF) |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash |
| DeepSeek-V4-Flash-Base |
Предобученная база |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base |
Справочник API
Конечные точки
- Базовый URL:
https://api.deepseek.com/v1
- Завершение диалога:
POST /chat/completions
- Совместимые форматы: OpenAI ChatCompletions API, Anthropic Messages API
Названия моделей (API)
deepseek-v4-pro — Флагманская модель с полным набором возможностей
deepseek-v4-flash — Быстрая и экономичная
⚠️ Устаревшие (будут отключены 24 июля 2026 г.): deepseek-chat, deepseek-reasoner
Цены
| Модель |
Входные данные |
Выходные данные |
| deepseek-v4-flash |
$0,14 / 1 млн токенов |
$0,28 / 1 млн токенов |
| deepseek-v4-pro |
$1,74 / 1 млн токенов |
$3,48 / 1 млн токенов |
Подробности архитектуры
Гибридная система внимания
| Тип слоя |
Механизм |
Назначение |
| Слои ближних токенов |
Стандартное внимание |
Полная точность для ближайшего контекста |
| Слои средних токенов |
Сжатое разреженное внимание (CSA) |
Эффективный доступ к контексту средней дальности |
| Слои дальних токенов |
Сильно сжатое внимание (HCA) |
Компактное представление удалённой истории |
Эффективность по сравнению с V3.2 при контексте в 1 млн токенов:
- FLOPs: 27 % от V3.2 (снижение на 73 %)
- Кэш KV: 10 % от V3.2 (снижение на 90 %)
Инновации обучения
| Инновация |
Описание |
| Оптимизатор |
Muon (заменяет AdamW) |
| Остаточные связи |
mHC (гиперсвязи с ограничением на многообразии) |
| Данные предобучения |
32 трлн+ разнообразных токенов |
| Постобучение, этап 1 |
Специализация экспертов через SFT + RL (GRPO) |
| Постобучение, этап 2 |
Единая консолидация через онлайн-дистилляцию |
Режимы инференса
| Режим |
Параметр API |
Бюджет размышлений |
Требование к контексту |
| Без размышлений |
"thinking": {"type": "disabled"} |
Отсутствует |
Стандартный |
| Размышления (высокий) |
"thinking": {"type": "enabled", "budget_tokens": N} |
Задаётся пользователем |
Стандартный |
| Размышления (максимум) |
Специальный системный промпт + "thinking": {"type": "max"} |
Расширенный |
Рекомендуется 384K+ токенов |
Рекомендуемые параметры сэмплинга
{
"temperature": 1.0,
"top_p": 1.0
}
Справочник по бенчмаркам
V4-Pro-Max vs передовые модели
| Бенчмарк |
V4-Pro Max |
Opus 4.6 Max |
GPT-5.4 xHigh |
Gemini-3.1-Pro High |
| MMLU-Pro |
87,5 % |
89,1 % |
87,5 % |
91,0 % |
| GPQA Diamond |
90,1 % |
91,3 % |
93,0 % |
94,3 % |
| HLE |
37,7 % |
40,0 % |
39,8 % |
44,4 % |
| LiveCodeBench |
93,5 % |
88,8 % |
Н/Д |
91,7 % |
| Codeforces |
3206 |
Н/Д |
3168 |
3052 |
| SWE-bench Verified |
80,6 % |
80,8 % |
Н/Д |
80,6 % |
| SWE-bench Pro |
55,4 % |
57,3 % |
57,7 % |
54,2 % |
| Terminal Bench 2.0 |
67,9 % |
65,4 % |
75,1 % |
68,5 % |
| MRCR 1M |
83,5 % |
92,9 % |
Н/Д |
76,3 % |
| CorpusQA 1M |
62,0 % |
71,7 % |
Н/Д |
53,8 % |
Справочник по локальному развёртыванию
| Конфигурация |
Хранилище |
VRAM |
Минимальная конфигурация GPU |
| V4-Flash (полная) |
160 ГБ |
~160 ГБ |
2× H100 80 ГБ |
| V4-Flash (квантизация Q4) |
~80 ГБ |
~80 ГБ |
RTX 5090 |
| V4-Pro (полная) |
865 ГБ |
~865 ГБ |
16× H100 80 ГБ |
| V4-Pro (квантизация Q4) |
~200–400 ГБ |
~200–400 ГБ |
4–8× H100 80 ГБ |
Шаблон чата
DeepSeek V4 не использует стандартный Jinja-шаблон чата HuggingFace. Используйте пользовательские скрипты кодирования из папки encoding/ каждого репозитория.
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
prompt = encode_messages(messages, thinking_mode="no_think")
# Варианты: "no_think", "thinking", "max_thinking"
Известные ограничения
- Только текст на старте: В предварительной версии от апреля 2026 г. отсутствует нативная поддержка изображений, аудио и видео
- Статус предварительной версии: Возможны нетипичные случаи; DeepSeek рекомендует следить за официальными аккаунтами для получения обновлений
- Требование к контексту для Think Max: Для наилучшей производительности в режиме Think Max требуется окно контекста от 384K токенов
- Большой размер загрузки: V4-Pro объёмом 865 ГБ требует значительной пропускной способности и дискового пространства для локального развёртывания
- Шаблон чата: Нестандартное кодирование требует использования скриптов из репозитория вместо стандартных инструментов пайплайна HuggingFace
Контакты и поддержка
- Официальный Twitter: @deepseek_ai
- GitHub: github.com/deepseek-ai
- HuggingFace: huggingface.co/deepseek-ai
- Документация API: api-docs.deepseek.com
- Электронная почта: service@deepseek.com
- Веб-чат: chat.deepseek.com
Для разработчиков, работающих на платформах типа Framia.pro, интегрирующих возможности DeepSeek V4, данная карточка модели является авторитетным техническим справочником для всех решений, связанных с интеграцией.
Цитирование
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}