Как запустить DeepSeek V4 локально: требования к оборудованию и руководство по настройке

Узнайте, как запустить DeepSeek V4-Flash и V4-Pro локально. Требования к железу, загрузка весов, настройка инференса, квантизованные версии и бенчмарки производительности.

by Framia

Как запустить DeepSeek V4 локально: требования к оборудованию и руководство по настройке

Локальный запуск DeepSeek V4 обеспечивает полную конфиденциальность, отсутствие платы за API-токены и полный контроль над параметрами инференса. Как V4-Pro, так и V4-Flash — это модели с открытыми весами под лицензией MIT, доступные для бесплатной загрузки с HuggingFace. Вот всё, что нужно знать для запуска на собственном оборудовании.


Локальное развёртывание или API: что выбрать?

Прежде чем приступать к настройке, оцените свой сценарий использования:

Фактор Локальное развёртывание API
Стоимость (большой объём) ✅ Ниже (затраты на железо амортизируются) ❌ Оплата за токен
Конфиденциальность ✅ Полная ❌ Данные передаются в DeepSeek
Сложность настройки ❌ Высокая ✅ Нулевая
Задержка ✅ Нет сетевых задержек ❌ Зависит от сети
Необходимое железо ❌ Значительное ✅ Не требуется
Актуальные версии модели ❌ Обновления вручную ✅ Автоматически

Локальное развёртывание лучше всего подходит для: корпоративных требований к конфиденциальности, высоконагруженного продакшена, где затраты на GPU окупаются ниже стоимости API, а также для задач исследований и дообучения.


Требования к оборудованию

DeepSeek-V4-Flash (284B / 13B активных)

Полная точность (FP8 + FP4 смешанная):

  • Размер загрузки: ~160 ГБ
  • Необходимый VRAM: ~160 ГБ
  • Рекомендуемые GPU: 2× NVIDIA H100 80 ГБ, или 2× H200, или 4× A100 40 ГБ

Квантизованная версия (GGUF/GPTQ от сообщества):

  • Размер: ~80 ГБ (4-битная квантизация)
  • Необходимый VRAM: ~80 ГБ
  • Доступно на: 1× NVIDIA RTX 5090, или 2× RTX 4090 (по 24 ГБ = 48 ГБ — недостаточно без CPU offload)
  • С CPU offload: RTX 5090 + 64 ГБ+ системной RAM

DeepSeek-V4-Pro (1,6T / 49B активных)

Полная точность (FP8 + FP4 смешанная):

  • Размер загрузки: ~865 ГБ
  • Необходимый VRAM: ~865 ГБ
  • Рекомендуемый кластер: 16× NVIDIA H100 80 ГБ или аналог
  • Минимальная конфигурация: 12× H100 80 ГБ с оптимизированным serving'ом

Квантизованная версия (сборки сообщества):

  • Размер: ~200–400 ГБ (4-битная или 8-битная квантизация)
  • Необходимый VRAM: ~200–400 ГБ
  • Доступно на: 4–8× H100 80 ГБ, или 8–16× A100 40 ГБ

Честная оценка: Локальное развёртывание V4-Pro реально только для организаций с серьёзной GPU-инфраструктурой. V4-Flash — доступный вариант для частных лиц и небольших команд.


Шаг 1: Загрузка весов модели

С помощью HuggingFace CLI (рекомендуется)

# Установить CLI
pip install huggingface_hub

# Загрузить instruct-модель V4-Flash (~160 ГБ)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# Загрузить V4-Flash Base (опционально, для дообучения)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

Флаг --resume-download критически важен при таких больших загрузках — он позволяет возобновить прерванную загрузку без потери прогресса.

Из ModelScope (быстрее в Китае)

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

Шаг 2: Настройка среды инференса

DeepSeek V4 требует специальных скриптов кодирования для шаблона чата. Клонируйте инструменты инференса модели:

# Клонировать только папку инференса из репозитория
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

Установить зависимости:

pip install transformers torch accelerate

Шаг 3: Запуск базового инференса

Используйте предоставленные скрипты кодирования:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# Загрузить токенайзер
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# Загрузить модель (с автоматическим распределением по устройствам для multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # Распределяет по доступным GPU
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# Закодировать диалог
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# Режим без размышлений
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# Генерация
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

Шаг 4: Квантизованные сборки сообщества (llama.cpp / Ollama)

Если ресурсы оборудования ограничены, квантизованные версии от сообщества существенно снижают требования:

С помощью Ollama (проще всего)

# Установить Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Загрузить квантизованный V4-Flash от сообщества (доступные версии — в библиотеке Ollama)
ollama pull deepseek-v4-flash:q4_k_m

# Запустить
ollama run deepseek-v4-flash:q4_k_m

С помощью llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# Скачать GGUF-квантизованный V4-Flash из репозиториев сообщества на HuggingFace
# Затем запустить:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

Рекомендуемые параметры сэмплирования

DeepSeek официально рекомендует:

temperature = 1.0
top_p = 1.0

В режиме Think Max убедитесь, что контекстное окно установлено не менее чем на 384K токенов.


Ожидаемая производительность

Оборудование Модель Пропускная способность (прибл.)
2× H100 80 ГБ V4-Flash ~40–80 токенов/сек
4× A100 40 ГБ V4-Flash ~20–40 токенов/сек
8× H100 80 ГБ V4-Flash ~100–150 токенов/сек
16× H100 80 ГБ V4-Pro ~15–30 токенов/сек
RTX 5090 (квантизованная) V4-Flash Q4 ~5–15 токенов/сек

Это приблизительные оценки — реальная пропускная способность зависит от длины контекста, размера батча и оптимизаций фреймворка.


Преимущества конфиденциальности для корпораций

Для компаний, работающих с чувствительными данными — медицинскими записями, юридическими документами, финансовой информацией — локальное развёртывание DeepSeek V4 означает, что никакие данные не покидают вашу инфраструктуру. В отличие от API-сервисов, здесь нет хранения данных, нет логирования на сторонних серверах и нет вопросов соответствия требованиям при передаче проприетарной информации внешним API.

Это особенно актуально для платформ вроде Framia.pro, корпоративные клиенты которых нуждаются в AI-инструментах для творческих задач без беспокойства о цифровом суверенитете данных.


Заключение

Локальный запуск DeepSeek V4-Flash вполне реален на двойной конфигурации H100 или высококлассном квантизованном оборудовании. V4-Pro требует значительной GPU-инфраструктуры, однако обеспечивает непревзойдённые возможности среди open-source моделей. Лицензия MIT означает, что вы полностью владеете своим развёртыванием — ключевое преимущество для задач с повышенными требованиями к конфиденциальности и высоким объёмом запросов.