HuggingFace에서 DeepSeek V4 사용하기: 오픈 웨이트 접근 및 다운로드 방법

DeepSeek V4-Pro와 V4-Flash 웨이트가 MIT 라이선스로 HuggingFace에 무료 공개됐습니다. 로컬 실행, 다운로드 방법부터 Framia.pro API 활용법까지 알아보세요.

by Framia

HuggingFace에서 DeepSeek V4 사용하기: 오픈 웨이트 접근 및 다운로드 방법

DeepSeek V4는 완전 오픈소스 모델로, 모든 모델 가중치가 HuggingFace에서 허용적인 MIT 라이선스 하에 공개되어 있습니다. 로컬에서 모델을 실행하거나, 특정 사용 사례에 맞게 파인튜닝하거나, 아키텍처를 살펴보고 싶다면 HuggingFace가 DeepSeek V4의 주요 배포 채널입니다.

이 가이드에서는 모델을 찾는 방법, 각 리포지토리에 포함된 내용, 다운로드 용량, 그리고 사용을 시작하는 방법까지 자세히 안내합니다.


DeepSeek V4 HuggingFace 리포지토리 링크

DeepSeek는 공식 deepseek-ai HuggingFace 컬렉션에 4개의 모델 리포지토리를 공개했습니다:

리포지토리 유형 파라미터 수 (전체 / 활성) 정밀도 크기
deepseek-ai/DeepSeek-V4-Flash-Base 베이스 (사전학습) 284B / 13B FP8 Mixed ~160 GB
deepseek-ai/DeepSeek-V4-Flash 인스트럭트 (RLHF 튜닝) 284B / 13B FP4 + FP8 Mixed ~160 GB
deepseek-ai/DeepSeek-V4-Pro-Base 베이스 (사전학습) 1.6T / 49B FP8 Mixed ~865 GB
deepseek-ai/DeepSeek-V4-Pro 인스트럭트 (RLHF 튜닝) 1.6T / 49B FP4 + FP8 Mixed ~865 GB

4개의 리포지토리는 모두 deepseek-ai/deepseek-v4 컬렉션의 일부입니다.


각 리포지토리의 구성 내용

각 V4 모델 리포지토리에는 다음이 포함되어 있습니다:

  • 모델 가중치 — SafeTensors 형식 (여러 샤드로 분할)
  • DeepSeek_V4.pdf — 전체 기술 보고서
  • encoding/ 폴더 — OpenAI 호환 프롬프트 구성 및 모델 출력 파싱용 Python 스크립트
  • inference/ 폴더 — 로컬에서 모델 실행을 위한 상세 지침
  • LICENSE — MIT 라이선스 파일
  • README — 모델 카드, 벤치마크 표, 인용 정보

기술 보고서(DeepSeek_V4.pdf)는 Pro 리포지토리에 포함되어 있으며, 하이브리드 어텐션 메커니즘, mHC 및 학습 방법론 등 전체 아키텍처 세부 정보를 담고 있습니다.


라이선스: MIT (Apache 아님)

DeepSeek가 Apache 2.0 라이선스를 사용한다는 오해가 있지만, DeepSeek V4는 더욱 허용적인 MIT 라이선스 하에 출시되었습니다:

  • ✅ 상업적 이용 허용
  • ✅ 수정 허용
  • ✅ 배포 허용
  • ✅ 개인 이용 허용
  • ✅ 특허 조항 또는 추가 제한 없음

MIT 저작권 고지 유지 외 어떠한 제한 없이 V4를 기반으로 독점 제품을 개발하거나 파생물을 파인튜닝하여 재배포할 수 있습니다.


DeepSeek V4 가중치 다운로드 방법

옵션 1: HuggingFace CLI (권장)

pip install huggingface_hub

# V4-Flash 다운로드 (인스트럭트, ~160 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./DeepSeek-V4-Flash

# V4-Pro 다운로드 (인스트럭트, ~865 GB)
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./DeepSeek-V4-Pro

옵션 2: Python huggingface_hub 사용

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id="deepseek-ai/DeepSeek-V4-Flash",
    local_dir="./DeepSeek-V4-Flash"
)

옵션 3: ModelScope (중국 본토 사용자에게 권장)

DeepSeek V4는 동일한 리포지토리 경로(deepseek-ai/DeepSeek-V4-Flash 등)로 ModelScope에서도 이용 가능하며, 중국 본토에서는 더 빠른 다운로드 속도를 제공할 수 있습니다.


저장 공간 및 대역폭 요구사항

모델 디스크 공간 필요 VRAM 권장 GPU 구성
V4-Flash ~160 GB ~160 GB VRAM 2× H100 80GB 또는 8× A100 40GB
V4-Pro ~865 GB ~865 GB VRAM 16× H100 80GB (또는 동급)
V4-Flash (양자화) ~80 GB ~80 GB VRAM 2× RTX 4090 / 1× RTX 5090
V4-Pro (양자화) ~200 GB ~200 GB VRAM 4~8× H100

참고: DeepSeek는 FP4+FP8 혼합 정밀도를 사용하므로 원본 가중치가 이미 상당히 압축되어 있습니다. 커뮤니티에서 제공하는 양자화 버전(GGUF/GPTQ)이 HuggingFace에 등장하고 있으며, 이를 통해 요구사항을 더욱 줄일 수 있습니다.


모델 실행: 주요 설정 참고사항

DeepSeek V4는 표준 HuggingFace Jinja 채팅 템플릿을 사용하지 않습니다. 대신 리포지토리의 encoding/ 폴더에 제공된 커스텀 인코딩 스크립트를 사용해야 합니다.

최소 실행 예시:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "DeepSeek V4의 하이브리드 어텐션 아키텍처를 설명해 주세요"}
]

prompt = encode_messages(messages, thinking_mode="thinking")

import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Flash")
tokens = tokenizer.encode(prompt)

전체 추론 설정은 각 리포지토리의 inference/README.md를 참조하세요.


HuggingFace 커뮤니티 활동

2026년 4월 24일 출시 이후 며칠 만에 DeepSeek V4-Pro 리포지토리는 123,000건 이상의 다운로드와 22개의 커뮤니티 Space를 기록했습니다. 커뮤니티에서는 신속하게 다음을 제공했습니다:

  • llama.cpp용 GGUF 양자화 (CPU+GPU 하이브리드 추론 가능)
  • LM Studio 호환 버전
  • Ollama 빌드
  • Jan 호환 패키지

이러한 커뮤니티 양자화를 통해 V4-Flash가 단일 RTX 4090에서 실행 가능해졌습니다 — 2840억 파라미터 모델로서는 놀라운 성과입니다.


DeepSeek V4와 AI 플랫폼

로컬 가중치 관리보다 API 접근을 선호한다면, V4 모델은 여러 추론 제공업체를 통해서도 이용할 수 있습니다. Framia.pro와 같은 플랫폼은 최신 DeepSeek 릴리스를 포함한 최첨단 AI 모델을 통합하여, 크리에이터와 개발자가 인프라 관리 없이 원활하게 API를 활용할 수 있도록 지원합니다.


결론

HuggingFace의 DeepSeek V4는 AI 역사상 가장 접근하기 쉬운 프론티어 모델 출시 중 하나입니다. 4개의 리포지토리, MIT 라이선스, 포괄적인 기술 보고서, 커스텀 추론 도구가 모두 무료로 제공됩니다. GPU 클러스터에서 실행하거나, 커뮤니티 양자화를 실험하거나, API를 통해 접근하는 경우 모두 HuggingFace가 시작점입니다.