Как запустить DeepSeek V4 локально: требования к оборудованию и руководство по настройке
Локальный запуск DeepSeek V4 обеспечивает полную конфиденциальность, отсутствие платы за API-токены и полный контроль над параметрами инференса. Как V4-Pro, так и V4-Flash — это модели с открытыми весами под лицензией MIT, доступные для бесплатной загрузки с HuggingFace. Вот всё, что нужно знать для запуска на собственном оборудовании.
Локальное развёртывание или API: что выбрать?
Прежде чем приступать к настройке, оцените свой сценарий использования:
| Фактор | Локальное развёртывание | API |
|---|---|---|
| Стоимость (большой объём) | ✅ Ниже (затраты на железо амортизируются) | ❌ Оплата за токен |
| Конфиденциальность | ✅ Полная | ❌ Данные передаются в DeepSeek |
| Сложность настройки | ❌ Высокая | ✅ Нулевая |
| Задержка | ✅ Нет сетевых задержек | ❌ Зависит от сети |
| Необходимое железо | ❌ Значительное | ✅ Не требуется |
| Актуальные версии модели | ❌ Обновления вручную | ✅ Автоматически |
Локальное развёртывание лучше всего подходит для: корпоративных требований к конфиденциальности, высоконагруженного продакшена, где затраты на GPU окупаются ниже стоимости API, а также для задач исследований и дообучения.
Требования к оборудованию
DeepSeek-V4-Flash (284B / 13B активных)
Полная точность (FP8 + FP4 смешанная):
- Размер загрузки: ~160 ГБ
- Необходимый VRAM: ~160 ГБ
- Рекомендуемые GPU: 2× NVIDIA H100 80 ГБ, или 2× H200, или 4× A100 40 ГБ
Квантизованная версия (GGUF/GPTQ от сообщества):
- Размер: ~80 ГБ (4-битная квантизация)
- Необходимый VRAM: ~80 ГБ
- Доступно на: 1× NVIDIA RTX 5090, или 2× RTX 4090 (по 24 ГБ = 48 ГБ — недостаточно без CPU offload)
- С CPU offload: RTX 5090 + 64 ГБ+ системной RAM
DeepSeek-V4-Pro (1,6T / 49B активных)
Полная точность (FP8 + FP4 смешанная):
- Размер загрузки: ~865 ГБ
- Необходимый VRAM: ~865 ГБ
- Рекомендуемый кластер: 16× NVIDIA H100 80 ГБ или аналог
- Минимальная конфигурация: 12× H100 80 ГБ с оптимизированным serving'ом
Квантизованная версия (сборки сообщества):
- Размер: ~200–400 ГБ (4-битная или 8-битная квантизация)
- Необходимый VRAM: ~200–400 ГБ
- Доступно на: 4–8× H100 80 ГБ, или 8–16× A100 40 ГБ
Честная оценка: Локальное развёртывание V4-Pro реально только для организаций с серьёзной GPU-инфраструктурой. V4-Flash — доступный вариант для частных лиц и небольших команд.
Шаг 1: Загрузка весов модели
С помощью HuggingFace CLI (рекомендуется)
# Установить CLI
pip install huggingface_hub
# Загрузить instruct-модель V4-Flash (~160 ГБ)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/DeepSeek-V4-Flash \
--resume-download
# Загрузить V4-Flash Base (опционально, для дообучения)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
--local-dir ./models/DeepSeek-V4-Flash-Base \
--resume-download
Флаг --resume-download критически важен при таких больших загрузках — он позволяет возобновить прерванную загрузку без потери прогресса.
Из ModelScope (быстрее в Китае)
pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash
Шаг 2: Настройка среды инференса
DeepSeek V4 требует специальных скриптов кодирования для шаблона чата. Клонируйте инструменты инференса модели:
# Клонировать только папку инференса из репозитория
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo
Установить зависимости:
pip install transformers torch accelerate
Шаг 3: Запуск базового инференса
Используйте предоставленные скрипты кодирования:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch
model_path = "./models/DeepSeek-V4-Flash"
# Загрузить токенайзер
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)
# Загрузить модель (с автоматическим распределением по устройствам для multi-GPU)
model = transformers.AutoModelForCausalLM.from_pretrained(
model_path,
device_map="auto", # Распределяет по доступным GPU
torch_dtype=torch.float8_e4m3fn,
trust_remote_code=True
)
# Закодировать диалог
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a Python function to reverse a linked list."}
]
# Режим без размышлений
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)
# Генерация
with torch.no_grad():
output = model.generate(
inputs,
max_new_tokens=2048,
temperature=1.0,
top_p=1.0,
do_sample=True
)
response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))
Шаг 4: Квантизованные сборки сообщества (llama.cpp / Ollama)
Если ресурсы оборудования ограничены, квантизованные версии от сообщества существенно снижают требования:
С помощью Ollama (проще всего)
# Установить Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# Загрузить квантизованный V4-Flash от сообщества (доступные версии — в библиотеке Ollama)
ollama pull deepseek-v4-flash:q4_k_m
# Запустить
ollama run deepseek-v4-flash:q4_k_m
С помощью llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8
# Скачать GGUF-квантизованный V4-Flash из репозиториев сообщества на HuggingFace
# Затем запустить:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
-n 2048 \
--ctx-size 8192 \
-p "You are a helpful assistant."
Рекомендуемые параметры сэмплирования
DeepSeek официально рекомендует:
temperature = 1.0
top_p = 1.0
В режиме Think Max убедитесь, что контекстное окно установлено не менее чем на 384K токенов.
Ожидаемая производительность
| Оборудование | Модель | Пропускная способность (прибл.) |
|---|---|---|
| 2× H100 80 ГБ | V4-Flash | ~40–80 токенов/сек |
| 4× A100 40 ГБ | V4-Flash | ~20–40 токенов/сек |
| 8× H100 80 ГБ | V4-Flash | ~100–150 токенов/сек |
| 16× H100 80 ГБ | V4-Pro | ~15–30 токенов/сек |
| RTX 5090 (квантизованная) | V4-Flash Q4 | ~5–15 токенов/сек |
Это приблизительные оценки — реальная пропускная способность зависит от длины контекста, размера батча и оптимизаций фреймворка.
Преимущества конфиденциальности для корпораций
Для компаний, работающих с чувствительными данными — медицинскими записями, юридическими документами, финансовой информацией — локальное развёртывание DeepSeek V4 означает, что никакие данные не покидают вашу инфраструктуру. В отличие от API-сервисов, здесь нет хранения данных, нет логирования на сторонних серверах и нет вопросов соответствия требованиям при передаче проприетарной информации внешним API.
Это особенно актуально для платформ вроде Framia.pro, корпоративные клиенты которых нуждаются в AI-инструментах для творческих задач без беспокойства о цифровом суверенитете данных.
Заключение
Локальный запуск DeepSeek V4-Flash вполне реален на двойной конфигурации H100 или высококлассном квантизованном оборудовании. V4-Pro требует значительной GPU-инфраструктуры, однако обеспечивает непревзойдённые возможности среди open-source моделей. Лицензия MIT означает, что вы полностью владеете своим развёртыванием — ключевое преимущество для задач с повышенными требованиями к конфиденциальности и высоким объёмом запросов.