DeepSeek V4 모델 카드: 완전한 기술 사양 참조 (2026)

DeepSeek V4 완전 모델 카드: 전체 사양, API 참조, 가격, 벤치마크 비교표, 로컬 배포 가이드 및 V4-Pro·V4-Flash 기술 정보를 한눈에 확인하세요.

DeepSeek V4 모델 카드: 개발자를 위한 완전한 기술 참조 가이드

DeepSeek V4 모델 카드는 개발자가 V4 시리즈를 이해하고 배포하는 데 필요한 모든 정보를 한곳에 모았습니다. 이 참조 문서는 V4-Pro와 V4-Flash의 완전한 기술 사양, 접근 방법, 알려진 제한 사항, 사용 가이드라인을 포괄합니다.

모델 정보

항목	DeepSeek-V4-Pro	DeepSeek-V4-Flash
모델 ID	`deepseek-v4-pro`	`deepseek-v4-flash`
개발사	DeepSeek-AI (항저우 딥시크 인공지능 유한공사)
출시일	2026년 4월 24일 (프리뷰)
라이선스	MIT License
모델 유형	디코더 전용 Transformer, MoE
아키텍처	하이브리드 어텐션 (CSA + HCA) + mHC
전체 파라미터	1.6조	2,840억
활성 파라미터	490억	130억
컨텍스트 길이	1,000,000 토큰	1,000,000 토큰
정밀도	FP4 + FP8 혼합	FP4 + FP8 혼합
다운로드 크기	~865 GB	~160 GB

HuggingFace 리포지터리 목록

리포지터리	유형	URL
DeepSeek-V4-Pro	인스트럭트 (RLHF 튜닝)	huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base	사전 학습 기반	huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash	인스트럭트 (RLHF 튜닝)	huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base	사전 학습 기반	huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API 참조

엔드포인트

기본 URL: https://api.deepseek.com/v1
채팅 완성: POST /chat/completions
호환 형식: OpenAI ChatCompletions API, Anthropic Messages API

모델 이름 (API)

deepseek-v4-pro — 최고 성능 플래그십 모델
deepseek-v4-flash — 빠르고 비용 효율적인 모델

⚠️ 지원 종료 (2026년 7월 24일 폐기 예정): deepseek-chat, deepseek-reasoner

가격

모델	입력	출력
deepseek-v4-flash	$0.14 / 100만 토큰	$0.28 / 100만 토큰
deepseek-v4-pro	$1.74 / 100만 토큰	$3.48 / 100만 토큰

아키텍처 세부 정보

하이브리드 어텐션 시스템

레이어 유형	메커니즘	목적
최근 토큰 레이어	표준 어텐션	가까운 컨텍스트의 완전한 정확도
중거리 토큰 레이어	압축 희소 어텐션 (CSA)	중간 거리 컨텍스트에 대한 효율적 접근
장거리 토큰 레이어	고도 압축 어텐션 (HCA)	먼 거리 기록의 압축 표현

1M 컨텍스트에서 V3.2 대비 효율성:

FLOPs: V3.2의 27% (73% 절감)
KV 캐시: V3.2의 10% (90% 절감)

학습 혁신 사항

혁신	설명
옵티마이저	Muon (AdamW 대체)
잔차 연결	mHC (Manifold-Constrained Hyper-Connections)
사전 학습 데이터	32조 개+ 다양한 토큰
후처리 학습 1단계	SFT + RL (GRPO)을 통한 전문가 특화
후처리 학습 2단계	온-폴리시 증류를 통한 통합 통합

추론 모드

모드	API 파라미터	사고 예산	컨텍스트 요구사항
비사고 모드	`"thinking": {"type": "disabled"}`	없음	표준
사고 (높음) 모드	`"thinking": {"type": "enabled", "budget_tokens": N}`	사용자 정의	표준
사고 (최대) 모드	특수 시스템 프롬프트 + `"thinking": {"type": "max"}`	확장	384K+ 토큰 권장

권장 샘플링 파라미터

{
  "temperature": 1.0,
  "top_p": 1.0
}

벤치마크 참조

V4-Pro-Max vs 최신 모델 비교

벤치마크	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High
MMLU-Pro	87.5%	89.1%	87.5%	91.0%
GPQA Diamond	90.1%	91.3%	93.0%	94.3%
HLE	37.7%	40.0%	39.8%	44.4%
LiveCodeBench	93.5%	88.8%	N/A	91.7%
Codeforces	3206	N/A	3168	3052
SWE-bench Verified	80.6%	80.8%	N/A	80.6%
SWE-bench Pro	55.4%	57.3%	57.7%	54.2%
Terminal Bench 2.0	67.9%	65.4%	75.1%	68.5%
MRCR 1M	83.5%	92.9%	N/A	76.3%
CorpusQA 1M	62.0%	71.7%	N/A	53.8%

로컬 배포 참조

구성	스토리지	VRAM	최소 GPU 구성
V4-Flash (전체)	160 GB	~160 GB	2× H100 80GB
V4-Flash (Q4 양자화)	~80 GB	~80 GB	RTX 5090
V4-Pro (전체)	865 GB	~865 GB	16× H100 80GB
V4-Pro (Q4 양자화)	~200–400 GB	~200–400 GB	4–8× H100 80GB

채팅 템플릿

DeepSeek V4는 표준 HuggingFace Jinja 채팅 템플릿을 사용하지 않습니다. 각 리포지터리의 encoding/ 폴더에 있는 커스텀 인코딩 스크립트를 사용하세요.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# 옵션: "no_think", "thinking", "max_thinking"

알려진 제한 사항

출시 시 텍스트 전용: 2026년 4월 프리뷰 릴리스에는 이미지, 오디오, 동영상의 기본 이해 기능이 없음
프리뷰 상태: 엣지 케이스가 존재할 수 있으며, DeepSeek은 업데이트를 위해 공식 계정을 팔로우할 것을 권장
Think Max 컨텍스트 요구사항: 최고의 Think Max 성능을 위해 384K+ 토큰 컨텍스트 창이 필요
대용량 다운로드: V4-Pro는 865 GB로 로컬 배포에 상당한 대역폭과 스토리지 필요
채팅 템플릿: 비표준 인코딩으로 인해 표준 HuggingFace 파이프라인 도구 대신 리포지터리 제공 스크립트 사용 필요

연락처 및 지원

공식 Twitter: @deepseek_ai
GitHub: github.com/deepseek-ai
HuggingFace: huggingface.co/deepseek-ai
API 문서: api-docs.deepseek.com
이메일: service@deepseek.com
웹 채팅: chat.deepseek.com

DeepSeek V4의 기능을 통합한 Framia.pro 같은 플랫폼에서 개발하는 개발자에게 이 모델 카드는 모든 통합 결정을 위한 공식 기술 참조 문서입니다.

인용

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}