Карточка модели DeepSeek V4: Полный технический справочник для разработчиков

Полная карточка модели DeepSeek V4: характеристики, справочник API, цены, таблица бенчмарков, руководство по локальному развёртыванию и технические примечания для V4-Pro и V4-Flash.

by Framia

Карточка модели DeepSeek V4: Полный технический справочник для разработчиков

Карточка модели DeepSeek V4 содержит всё необходимое для изучения и развёртывания серии V4. В этом справочнике собраны полные технические характеристики, методы доступа, известные ограничения и рекомендации по использованию как V4-Pro, так и V4-Flash.


Идентификация модели

Поле DeepSeek-V4-Pro DeepSeek-V4-Flash
ID модели deepseek-v4-pro deepseek-v4-flash
Разработчик DeepSeek-AI (Hangzhou DeepSeek Artificial Intelligence Co., Ltd.)
Дата выпуска 24 апреля 2026 г. (предварительная версия)
Лицензия MIT License
Тип модели Transformer только-декодер, MoE
Архитектура Гибридное внимание (CSA + HCA) + mHC
Всего параметров 1,6 трлн 284 млрд
Активных параметров 49 млрд 13 млрд
Длина контекста 1 000 000 токенов 1 000 000 токенов
Точность FP4 + FP8 смешанная FP4 + FP8 смешанная
Размер загрузки ~865 ГБ ~160 ГБ

Карта репозиториев HuggingFace

Репозиторий Тип URL
DeepSeek-V4-Pro Instruct (дообучен с RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base Предобученная база huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash Instruct (дообучен с RLHF) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base Предобученная база huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

Справочник API

Конечные точки

  • Базовый URL: https://api.deepseek.com/v1
  • Завершение диалога: POST /chat/completions
  • Совместимые форматы: OpenAI ChatCompletions API, Anthropic Messages API

Названия моделей (API)

  • deepseek-v4-pro — Флагманская модель с полным набором возможностей
  • deepseek-v4-flash — Быстрая и экономичная

⚠️ Устаревшие (будут отключены 24 июля 2026 г.): deepseek-chat, deepseek-reasoner

Цены

Модель Входные данные Выходные данные
deepseek-v4-flash $0,14 / 1 млн токенов $0,28 / 1 млн токенов
deepseek-v4-pro $1,74 / 1 млн токенов $3,48 / 1 млн токенов

Подробности архитектуры

Гибридная система внимания

Тип слоя Механизм Назначение
Слои ближних токенов Стандартное внимание Полная точность для ближайшего контекста
Слои средних токенов Сжатое разреженное внимание (CSA) Эффективный доступ к контексту средней дальности
Слои дальних токенов Сильно сжатое внимание (HCA) Компактное представление удалённой истории

Эффективность по сравнению с V3.2 при контексте в 1 млн токенов:

  • FLOPs: 27 % от V3.2 (снижение на 73 %)
  • Кэш KV: 10 % от V3.2 (снижение на 90 %)

Инновации обучения

Инновация Описание
Оптимизатор Muon (заменяет AdamW)
Остаточные связи mHC (гиперсвязи с ограничением на многообразии)
Данные предобучения 32 трлн+ разнообразных токенов
Постобучение, этап 1 Специализация экспертов через SFT + RL (GRPO)
Постобучение, этап 2 Единая консолидация через онлайн-дистилляцию

Режимы инференса

Режим Параметр API Бюджет размышлений Требование к контексту
Без размышлений "thinking": {"type": "disabled"} Отсутствует Стандартный
Размышления (высокий) "thinking": {"type": "enabled", "budget_tokens": N} Задаётся пользователем Стандартный
Размышления (максимум) Специальный системный промпт + "thinking": {"type": "max"} Расширенный Рекомендуется 384K+ токенов

Рекомендуемые параметры сэмплинга

{
  "temperature": 1.0,
  "top_p": 1.0
}

Справочник по бенчмаркам

V4-Pro-Max vs передовые модели

Бенчмарк V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87,5 % 89,1 % 87,5 % 91,0 %
GPQA Diamond 90,1 % 91,3 % 93,0 % 94,3 %
HLE 37,7 % 40,0 % 39,8 % 44,4 %
LiveCodeBench 93,5 % 88,8 % Н/Д 91,7 %
Codeforces 3206 Н/Д 3168 3052
SWE-bench Verified 80,6 % 80,8 % Н/Д 80,6 %
SWE-bench Pro 55,4 % 57,3 % 57,7 % 54,2 %
Terminal Bench 2.0 67,9 % 65,4 % 75,1 % 68,5 %
MRCR 1M 83,5 % 92,9 % Н/Д 76,3 %
CorpusQA 1M 62,0 % 71,7 % Н/Д 53,8 %

Справочник по локальному развёртыванию

Конфигурация Хранилище VRAM Минимальная конфигурация GPU
V4-Flash (полная) 160 ГБ ~160 ГБ 2× H100 80 ГБ
V4-Flash (квантизация Q4) ~80 ГБ ~80 ГБ RTX 5090
V4-Pro (полная) 865 ГБ ~865 ГБ 16× H100 80 ГБ
V4-Pro (квантизация Q4) ~200–400 ГБ ~200–400 ГБ 4–8× H100 80 ГБ

Шаблон чата

DeepSeek V4 не использует стандартный Jinja-шаблон чата HuggingFace. Используйте пользовательские скрипты кодирования из папки encoding/ каждого репозитория.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# Варианты: "no_think", "thinking", "max_thinking"

Известные ограничения

  • Только текст на старте: В предварительной версии от апреля 2026 г. отсутствует нативная поддержка изображений, аудио и видео
  • Статус предварительной версии: Возможны нетипичные случаи; DeepSeek рекомендует следить за официальными аккаунтами для получения обновлений
  • Требование к контексту для Think Max: Для наилучшей производительности в режиме Think Max требуется окно контекста от 384K токенов
  • Большой размер загрузки: V4-Pro объёмом 865 ГБ требует значительной пропускной способности и дискового пространства для локального развёртывания
  • Шаблон чата: Нестандартное кодирование требует использования скриптов из репозитория вместо стандартных инструментов пайплайна HuggingFace

Контакты и поддержка

  • Официальный Twitter: @deepseek_ai
  • GitHub: github.com/deepseek-ai
  • HuggingFace: huggingface.co/deepseek-ai
  • Документация API: api-docs.deepseek.com
  • Электронная почта: service@deepseek.com
  • Веб-чат: chat.deepseek.com

Для разработчиков, работающих на платформах типа Framia.pro, интегрирующих возможности DeepSeek V4, данная карточка модели является авторитетным техническим справочником для всех решений, связанных с интеграцией.


Цитирование

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}