Карточка модели DeepSeek V4: Полный технический справочник (2026)

Полная карточка модели DeepSeek V4: характеристики, справочник API, цены, таблица бенчмарков, руководство по локальному развёртыванию и технические примечания для V4-Pro и V4-Flash.

Карточка модели DeepSeek V4: Полный технический справочник для разработчиков

Карточка модели DeepSeek V4 содержит всё необходимое для изучения и развёртывания серии V4. В этом справочнике собраны полные технические характеристики, методы доступа, известные ограничения и рекомендации по использованию как V4-Pro, так и V4-Flash.

Идентификация модели

Поле	DeepSeek-V4-Pro	DeepSeek-V4-Flash
ID модели	`deepseek-v4-pro`	`deepseek-v4-flash`
Разработчик	DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Дата выпуска	24 апреля 2026 г. (предварительная версия)
Лицензия	MIT License
Тип модели	Transformer только-декодер, MoE
Архитектура	Гибридное внимание (CSA + HCA) + mHC
Всего параметров	1,6 трлн	284 млрд
Активных параметров	49 млрд	13 млрд
Длина контекста	1 000 000 токенов	1 000 000 токенов
Точность	FP4 + FP8 смешанная	FP4 + FP8 смешанная
Размер загрузки	~865 ГБ	~160 ГБ

Карта репозиториев HuggingFace

Репозиторий	Тип	URL
DeepSeek-V4-Pro	Instruct (дообучен с RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	Предобученная база	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	Instruct (дообучен с RLHF)	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	Предобученная база	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Справочник API

Конечные точки

Базовый URL: https://api.deepseek.com/v1
Завершение диалога: POST /chat/completions
Совместимые форматы: OpenAI ChatCompletions API, Anthropic Messages API

Названия моделей (API)

deepseek-v4-pro — Флагманская модель с полным набором возможностей
deepseek-v4-flash — Быстрая и экономичная

⚠️ Устаревшие (будут отключены 24 июля 2026 г.): deepseek-chat, deepseek-reasoner

Цены

Модель	Входные данные	Выходные данные
deepseek-v4-flash	$0,14 / 1 млн токенов	$0,28 / 1 млн токенов
deepseek-v4-pro	$1,74 / 1 млн токенов	$3,48 / 1 млн токенов

Подробности архитектуры

Гибридная система внимания

Тип слоя	Механизм	Назначение
Слои ближних токенов	Стандартное внимание	Полная точность для ближайшего контекста
Слои средних токенов	Сжатое разреженное внимание (CSA)	Эффективный доступ к контексту средней дальности
Слои дальних токенов	Сильно сжатое внимание (HCA)	Компактное представление удалённой истории

Эффективность по сравнению с V3.2 при контексте в 1 млн токенов:

FLOPs: 27 % от V3.2 (снижение на 73 %)
Кэш KV: 10 % от V3.2 (снижение на 90 %)

Инновации обучения

Инновация	Описание
Оптимизатор	Muon (заменяет AdamW)
Остаточные связи	mHC (гиперсвязи с ограничением на многообразии)
Данные предобучения	32 трлн+ разнообразных токенов
Постобучение, этап 1	Специализация экспертов через SFT + RL (GRPO)
Постобучение, этап 2	Единая консолидация через онлайн-дистилляцию

Режимы инференса

Режим	Параметр API	Бюджет размышлений	Требование к контексту
Без размышлений	`"thinking": {"type": "disabled"}`	Отсутствует	Стандартный
Размышления (высокий)	`"thinking": {"type": "enabled", "budget_tokens": N}`	Задаётся пользователем	Стандартный
Размышления (максимум)	Специальный системный промпт + `"thinking": {"type": "max"}`	Расширенный	Рекомендуется 384K+ токенов

Справочник по бенчмаркам

V4-Pro-Max vs передовые модели

Бенчмарк	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87,5 %	89,1 %	87,5 %	91,0 %
GPQA Diamond	90,1 %	91,3 %	93,0 %	94,3 %
HLE	37,7 %	40,0 %	39,8 %	44,4 %
LiveCodeBench	93,5 %	88,8 %	Н/Д	91,7 %
Codeforces	3206	Н/Д	3168	3052
SWE-bench Verified	80,6 %	80,8 %	Н/Д	80,6 %
SWE-bench Pro	55,4 %	57,3 %	57,7 %	54,2 %
Terminal Bench 2.0	67,9 %	65,4 %	75,1 %	68,5 %
MRCR 1M	83,5 %	92,9 %	Н/Д	76,3 %
CorpusQA 1M	62,0 %	71,7 %	Н/Д	53,8 %

Справочник по локальному развёртыванию

Конфигурация	Хранилище	VRAM	Минимальная конфигурация GPU
V4-Flash (полная)	160 ГБ	~160 ГБ	2× H100 80 ГБ
V4-Flash (квантизация Q4)	~80 ГБ	~80 ГБ	RTX 5090
V4-Pro (полная)	865 ГБ	~865 ГБ	16× H100 80 ГБ
V4-Pro (квантизация Q4)	~200–400 ГБ	~200–400 ГБ	4–8× H100 80 ГБ

Шаблон чата

DeepSeek V4 не использует стандартный Jinja-шаблон чата HuggingFace. Используйте пользовательские скрипты кодирования из папки encoding/ каждого репозитория.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Варианты: "no_think", "thinking", "max_thinking"

Известные ограничения

Только текст на старте: В предварительной версии от апреля 2026 г. отсутствует нативная поддержка изображений, аудио и видео
Статус предварительной версии: Возможны нетипичные случаи; DeepSeek рекомендует следить за официальными аккаунтами для получения обновлений
Требование к контексту для Think Max: Для наилучшей производительности в режиме Think Max требуется окно контекста от 384K токенов
Большой размер загрузки: V4-Pro объёмом 865 ГБ требует значительной пропускной способности и дискового пространства для локального развёртывания
Шаблон чата: Нестандартное кодирование требует использования скриптов из репозитория вместо стандартных инструментов пайплайна HuggingFace

Контакты и поддержка

Официальный Twitter: @deepseek_ai
GitHub: github.com/deepseek-ai
HuggingFace: huggingface.co/deepseek-ai
Документация API: api-docs.deepseek.com
Электронная почта: service@deepseek.com
Веб-чат: chat.deepseek.com

Для разработчиков, работающих на платформах типа Framia.pro, интегрирующих возможности DeepSeek V4, данная карточка модели является авторитетным техническим справочником для всех решений, связанных с интеграцией.

Цитирование

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}

Карточка модели DeepSeek V4: Полный технический справочник для разработчиков

Карточка модели DeepSeek V4: Полный технический справочник для разработчиков

Идентификация модели

Карта репозиториев HuggingFace

Справочник API

Конечные точки

Названия моделей (API)

Цены

Подробности архитектуры

Гибридная система внимания

Инновации обучения

Режимы инференса

Рекомендуемые параметры сэмплинга

Справочник по бенчмаркам

V4-Pro-Max vs передовые модели

Справочник по локальному развёртыванию

Шаблон чата

Известные ограничения

Контакты и поддержка

Цитирование