DeepSeek V4 완전 모델 카드: 전체 사양, API 참조, 가격, 벤치마크 비교표, 로컬 배포 가이드 및 V4-Pro·V4-Flash 기술 정보를 한눈에 확인하세요.
DeepSeek V4 모델 카드: 개발자를 위한 완전한 기술 참조 가이드
DeepSeek V4 모델 카드는 개발자가 V4 시리즈를 이해하고 배포하는 데 필요한 모든 정보를 한곳에 모았습니다. 이 참조 문서는 V4-Pro와 V4-Flash의 완전한 기술 사양, 접근 방법, 알려진 제한 사항, 사용 가이드라인을 포괄합니다.
모델 정보
| 항목 |
DeepSeek-V4-Pro |
DeepSeek-V4-Flash |
| 모델 ID |
deepseek-v4-pro |
deepseek-v4-flash |
| 개발사 |
DeepSeek-AI (항저우 딥시크 인공지능 유한공사) |
|
| 출시일 |
2026년 4월 24일 (프리뷰) |
|
| 라이선스 |
MIT License |
|
| 모델 유형 |
디코더 전용 Transformer, MoE |
|
| 아키텍처 |
하이브리드 어텐션 (CSA + HCA) + mHC |
|
| 전체 파라미터 |
1.6조 |
2,840억 |
| 활성 파라미터 |
490억 |
130억 |
| 컨텍스트 길이 |
1,000,000 토큰 |
1,000,000 토큰 |
| 정밀도 |
FP4 + FP8 혼합 |
FP4 + FP8 혼합 |
| 다운로드 크기 |
~865 GB |
~160 GB |
HuggingFace 리포지터리 목록
| 리포지터리 |
유형 |
URL |
| DeepSeek-V4-Pro |
인스트럭트 (RLHF 튜닝) |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro |
| DeepSeek-V4-Pro-Base |
사전 학습 기반 |
huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base |
| DeepSeek-V4-Flash |
인스트럭트 (RLHF 튜닝) |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash |
| DeepSeek-V4-Flash-Base |
사전 학습 기반 |
huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base |
API 참조
엔드포인트
- 기본 URL:
https://api.deepseek.com/v1
- 채팅 완성:
POST /chat/completions
- 호환 형식: OpenAI ChatCompletions API, Anthropic Messages API
모델 이름 (API)
deepseek-v4-pro — 최고 성능 플래그십 모델
deepseek-v4-flash — 빠르고 비용 효율적인 모델
⚠️ 지원 종료 (2026년 7월 24일 폐기 예정): deepseek-chat, deepseek-reasoner
가격
| 모델 |
입력 |
출력 |
| deepseek-v4-flash |
$0.14 / 100만 토큰 |
$0.28 / 100만 토큰 |
| deepseek-v4-pro |
$1.74 / 100만 토큰 |
$3.48 / 100만 토큰 |
아키텍처 세부 정보
하이브리드 어텐션 시스템
| 레이어 유형 |
메커니즘 |
목적 |
| 최근 토큰 레이어 |
표준 어텐션 |
가까운 컨텍스트의 완전한 정확도 |
| 중거리 토큰 레이어 |
압축 희소 어텐션 (CSA) |
중간 거리 컨텍스트에 대한 효율적 접근 |
| 장거리 토큰 레이어 |
고도 압축 어텐션 (HCA) |
먼 거리 기록의 압축 표현 |
1M 컨텍스트에서 V3.2 대비 효율성:
- FLOPs: V3.2의 27% (73% 절감)
- KV 캐시: V3.2의 10% (90% 절감)
학습 혁신 사항
| 혁신 |
설명 |
| 옵티마이저 |
Muon (AdamW 대체) |
| 잔차 연결 |
mHC (Manifold-Constrained Hyper-Connections) |
| 사전 학습 데이터 |
32조 개+ 다양한 토큰 |
| 후처리 학습 1단계 |
SFT + RL (GRPO)을 통한 전문가 특화 |
| 후처리 학습 2단계 |
온-폴리시 증류를 통한 통합 통합 |
추론 모드
| 모드 |
API 파라미터 |
사고 예산 |
컨텍스트 요구사항 |
| 비사고 모드 |
"thinking": {"type": "disabled"} |
없음 |
표준 |
| 사고 (높음) 모드 |
"thinking": {"type": "enabled", "budget_tokens": N} |
사용자 정의 |
표준 |
| 사고 (최대) 모드 |
특수 시스템 프롬프트 + "thinking": {"type": "max"} |
확장 |
384K+ 토큰 권장 |
권장 샘플링 파라미터
{
"temperature": 1.0,
"top_p": 1.0
}
벤치마크 참조
V4-Pro-Max vs 최신 모델 비교
| 벤치마크 |
V4-Pro Max |
Opus 4.6 Max |
GPT-5.4 xHigh |
Gemini-3.1-Pro High |
| MMLU-Pro |
87.5% |
89.1% |
87.5% |
91.0% |
| GPQA Diamond |
90.1% |
91.3% |
93.0% |
94.3% |
| HLE |
37.7% |
40.0% |
39.8% |
44.4% |
| LiveCodeBench |
93.5% |
88.8% |
N/A |
91.7% |
| Codeforces |
3206 |
N/A |
3168 |
3052 |
| SWE-bench Verified |
80.6% |
80.8% |
N/A |
80.6% |
| SWE-bench Pro |
55.4% |
57.3% |
57.7% |
54.2% |
| Terminal Bench 2.0 |
67.9% |
65.4% |
75.1% |
68.5% |
| MRCR 1M |
83.5% |
92.9% |
N/A |
76.3% |
| CorpusQA 1M |
62.0% |
71.7% |
N/A |
53.8% |
로컬 배포 참조
| 구성 |
스토리지 |
VRAM |
최소 GPU 구성 |
| V4-Flash (전체) |
160 GB |
~160 GB |
2× H100 80GB |
| V4-Flash (Q4 양자화) |
~80 GB |
~80 GB |
RTX 5090 |
| V4-Pro (전체) |
865 GB |
~865 GB |
16× H100 80GB |
| V4-Pro (Q4 양자화) |
~200–400 GB |
~200–400 GB |
4–8× H100 80GB |
채팅 템플릿
DeepSeek V4는 표준 HuggingFace Jinja 채팅 템플릿을 사용하지 않습니다. 각 리포지터리의 encoding/ 폴더에 있는 커스텀 인코딩 스크립트를 사용하세요.
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
prompt = encode_messages(messages, thinking_mode="no_think")
# 옵션: "no_think", "thinking", "max_thinking"
알려진 제한 사항
- 출시 시 텍스트 전용: 2026년 4월 프리뷰 릴리스에는 이미지, 오디오, 동영상의 기본 이해 기능이 없음
- 프리뷰 상태: 엣지 케이스가 존재할 수 있으며, DeepSeek은 업데이트를 위해 공식 계정을 팔로우할 것을 권장
- Think Max 컨텍스트 요구사항: 최고의 Think Max 성능을 위해 384K+ 토큰 컨텍스트 창이 필요
- 대용량 다운로드: V4-Pro는 865 GB로 로컬 배포에 상당한 대역폭과 스토리지 필요
- 채팅 템플릿: 비표준 인코딩으로 인해 표준 HuggingFace 파이프라인 도구 대신 리포지터리 제공 스크립트 사용 필요
연락처 및 지원
- 공식 Twitter: @deepseek_ai
- GitHub: github.com/deepseek-ai
- HuggingFace: huggingface.co/deepseek-ai
- API 문서: api-docs.deepseek.com
- 이메일: service@deepseek.com
- 웹 채팅: chat.deepseek.com
DeepSeek V4의 기능을 통합한 Framia.pro 같은 플랫폼에서 개발하는 개발자에게 이 모델 카드는 모든 통합 결정을 위한 공식 기술 참조 문서입니다.
인용
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}