DeepSeek V4 로컬 실행 완전 가이드 (2026)

DeepSeek V4-Flash와 V4-Pro를 로컬에서 실행하는 방법을 알아보세요. 하드웨어 요구사항, 다운로드, 추론 설정, 양자화 옵션, 성능 벤치마크를 모두 다룹니다.

DeepSeek V4 로컬 실행 방법: 하드웨어 요구사항 및 설정 가이드

DeepSeek V4를 로컬에서 실행하면 완전한 개인정보 보호, 토큰당 API 비용 없음, 추론 설정에 대한 완전한 제어가 가능합니다. V4-Pro와 V4-Flash 모두 MIT 라이선스 오픈웨이트 모델로, HuggingFace에서 무료로 다운로드할 수 있습니다. 자신의 하드웨어에서 실행하는 데 필요한 모든 것을 안내합니다.

로컬 실행 vs. API 사용: 무엇을 선택할까?

설정에 들어가기 전에 사용 목적을 먼저 고려하세요:

요소	로컬 배포	API
비용 (대용량)	✅ 낮음 (하드웨어 분할상환)	❌ 토큰당 요금
개인정보 보호	✅ 완전	❌ 데이터가 DeepSeek으로 전송
설정 복잡도	❌ 높음	✅ 없음
지연 시간	✅ 네트워크 왕복 없음	❌ 네트워크 의존
필요 하드웨어	❌ 상당한 수준	✅ 없음
최신 모델 버전	❌ 수동 업데이트	✅ 자동

로컬 배포에 적합한 경우: 엔터프라이즈 개인정보 보호 요구사항, GPU 비용이 API 요금보다 낮아지는 대용량 프로덕션 환경, 연구/파인튜닝 워크플로.

하드웨어 요구사항

DeepSeek-V4-Flash (284B / 활성 13B)

전체 정밀도 (FP8 + FP4 혼합):

다운로드 크기: ~160 GB
필요 VRAM: ~160 GB
권장 GPU: 2× NVIDIA H100 80GB, 또는 2× H200, 또는 4× A100 40GB

양자화 (커뮤니티 GGUF/GPTQ):

크기: ~80 GB (4비트 양자화)
필요 VRAM: ~80 GB
가능한 환경: 1× NVIDIA RTX 5090, 또는 2× RTX 4090 (각 24GB = 48GB — 단독으로는 부족, CPU 오프로드 필요)
CPU 오프로드 사용 시: RTX 5090 + 64 GB 이상 시스템 RAM

DeepSeek-V4-Pro (1.6T / 활성 49B)

전체 정밀도 (FP8 + FP4 혼합):

다운로드 크기: ~865 GB
필요 VRAM: ~865 GB
권장 클러스터: 16× NVIDIA H100 80GB, 또는 동급 구성
최소 구성: 최적화 서빙 적용 시 12× H100 80GB

양자화 (커뮤니티 빌드):

크기: ~200–400 GB (4비트 또는 8비트 양자화)
필요 VRAM: ~200–400 GB
가능한 환경: 4–8× H100 80GB, 또는 8–16× A100 40GB

솔직한 평가: V4-Pro 로컬 배포는 상당한 GPU 인프라를 보유한 조직에서만 현실적입니다. V4-Flash는 개인 및 소규모 팀을 위한 현실적인 선택입니다.

1단계: 모델 가중치 다운로드

HuggingFace CLI 사용 (권장)

# CLI 설치
pip install huggingface_hub

# V4-Flash instruct 모델 다운로드 (~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/DeepSeek-V4-Flash \
  --resume-download

# V4-Flash Base 다운로드 (선택, 파인튜닝용)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-Base \
  --local-dir ./models/DeepSeek-V4-Flash-Base \
  --resume-download

--resume-download 플래그는 대용량 다운로드에서 매우 중요합니다 — 중단된 다운로드를 진행 상황을 잃지 않고 재개할 수 있습니다.

ModelScope에서 다운로드 (중국에서 더 빠름)

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local-dir ./models/DeepSeek-V4-Flash

2단계: 추론 환경 설정

DeepSeek V4는 채팅 템플릿을 위한 커스텀 인코딩 스크립트가 필요합니다. 모델의 추론 도구를 클론하세요:

# 리포지토리에서 추론 폴더만 클론
git clone --depth 1 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ./DeepSeek-V4-Flash-repo
cd DeepSeek-V4-Flash-repo

의존성 설치:

pip install transformers torch accelerate

3단계: 기본 추론 실행

제공된 인코딩 스크립트를 사용하세요:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text
import transformers
import torch

model_path = "./models/DeepSeek-V4-Flash"

# 토크나이저 로드
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)

# 모델 로드 (멀티 GPU 자동 디바이스 매핑)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",        # 사용 가능한 GPU에 분산
    torch_dtype=torch.float8_e4m3fn,
    trust_remote_code=True
)

# 대화 인코딩
messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a Python function to reverse a linked list."}
]

# 비사고 모드
prompt = encode_messages(messages, thinking_mode="no_think")
inputs = tokenizer.encode(prompt, return_tensors="pt").to(model.device)

# 생성
with torch.no_grad():
    output = model.generate(
        inputs,
        max_new_tokens=2048,
        temperature=1.0,
        top_p=1.0,
        do_sample=True
    )

response_text = tokenizer.decode(output[0][inputs.shape[1]:], skip_special_tokens=False)
print(parse_message_from_completion_text(response_text))

4단계: 커뮤니티 양자화 사용 (llama.cpp / Ollama)

하드웨어가 제한적이라면 커뮤니티에서 제공하는 양자화 버전으로 요구사항을 크게 줄일 수 있습니다:

Ollama 사용 (가장 쉬움)

# Ollama 설치
curl -fsSL https://ollama.ai/install.sh | sh

# 커뮤니티 양자화 V4-Flash 가져오기 (Ollama 라이브러리에서 사용 가능한 버전 확인)
ollama pull deepseek-v4-flash:q4_k_m

# 실행
ollama run deepseek-v4-flash:q4_k_m

llama.cpp 사용

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make -j8

# HuggingFace 커뮤니티 리포지토리에서 GGUF 양자화 V4-Flash 다운로드
# 그런 다음 실행:
./llama-cli -m DeepSeek-V4-Flash-Q4_K_M.gguf \
  -n 2048 \
  --ctx-size 8192 \
  -p "You are a helpful assistant."

권장 샘플링 파라미터

DeepSeek 공식 권장값:

temperature = 1.0
top_p = 1.0

Think Max 모드에서는 컨텍스트 창을 최소 384K 토큰으로 설정하세요.

성능 예상치

하드웨어	모델	처리량 (약)
2× H100 80GB	V4-Flash	~40–80 토큰/초
4× A100 40GB	V4-Flash	~20–40 토큰/초
8× H100 80GB	V4-Flash	~100–150 토큰/초
16× H100 80GB	V4-Pro	~15–30 토큰/초
RTX 5090 (양자화)	V4-Flash Q4	~5–15 토큰/초

이는 대략적인 추정치입니다 — 실제 처리량은 컨텍스트 길이, 배치 크기, 프레임워크 최적화에 따라 달라집니다.

기업을 위한 개인정보 보호 혜택

의료 기록, 법률 문서, 금융 데이터 등 민감한 데이터를 다루는 기업에게, DeepSeek V4 로컬 배포는 인프라 외부로 데이터가 나가지 않음을 의미합니다. API 기반 서비스와 달리, 데이터 보유, 제3자 서버의 로깅, 외부 API로의 독점 정보 전송에 대한 규정 준수 우려가 없습니다.

이는 데이터 주권 문제 없이 AI 기반 크리에이티브 도구가 필요한 엔터프라이즈 고객을 보유한 Framia.pro와 같은 플랫폼에 특히 중요합니다.

결론

DeepSeek V4-Flash의 로컬 실행은 듀얼 H100 구성이나 고성능 양자화 하드웨어에서 충분히 실현 가능합니다. V4-Pro는 상당한 GPU 인프라가 필요하지만 오픈소스에서 견줄 수 없는 성능을 제공합니다. MIT 라이선스는 배포를 완전히 소유할 수 있음을 의미합니다 — 개인정보 보호와 대용량 사용 사례에 있어 핵심적인 장점입니다.