DeepSeek V4 모델 카드: 개발자를 위한 완전한 기술 참조 가이드

DeepSeek V4 완전 모델 카드: 전체 사양, API 참조, 가격, 벤치마크 비교표, 로컬 배포 가이드 및 V4-Pro·V4-Flash 기술 정보를 한눈에 확인하세요.

by Framia

DeepSeek V4 모델 카드: 개발자를 위한 완전한 기술 참조 가이드

DeepSeek V4 모델 카드는 개발자가 V4 시리즈를 이해하고 배포하는 데 필요한 모든 정보를 한곳에 모았습니다. 이 참조 문서는 V4-Pro와 V4-Flash의 완전한 기술 사양, 접근 방법, 알려진 제한 사항, 사용 가이드라인을 포괄합니다.


모델 정보

항목 DeepSeek-V4-Pro DeepSeek-V4-Flash
모델 ID deepseek-v4-pro deepseek-v4-flash
개발사 DeepSeek-AI (항저우 딥시크 인공지능 유한공사)
출시일 2026년 4월 24일 (프리뷰)
라이선스 MIT License
모델 유형 디코더 전용 Transformer, MoE
아키텍처 하이브리드 어텐션 (CSA + HCA) + mHC
전체 파라미터 1.6조 2,840억
활성 파라미터 490억 130억
컨텍스트 길이 1,000,000 토큰 1,000,000 토큰
정밀도 FP4 + FP8 혼합 FP4 + FP8 혼합
다운로드 크기 ~865 GB ~160 GB

HuggingFace 리포지터리 목록

리포지터리 유형 URL
DeepSeek-V4-Pro 인스트럭트 (RLHF 튜닝) huggingface.co/deepseek-ai/DeepSeek-V4-Pro
DeepSeek-V4-Pro-Base 사전 학습 기반 huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash 인스트럭트 (RLHF 튜닝) huggingface.co/deepseek-ai/DeepSeek-V4-Flash
DeepSeek-V4-Flash-Base 사전 학습 기반 huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base

API 참조

엔드포인트

  • 기본 URL: https://api.deepseek.com/v1
  • 채팅 완성: POST /chat/completions
  • 호환 형식: OpenAI ChatCompletions API, Anthropic Messages API

모델 이름 (API)

  • deepseek-v4-pro — 최고 성능 플래그십 모델
  • deepseek-v4-flash — 빠르고 비용 효율적인 모델

⚠️ 지원 종료 (2026년 7월 24일 폐기 예정): deepseek-chat, deepseek-reasoner

가격

모델 입력 출력
deepseek-v4-flash $0.14 / 100만 토큰 $0.28 / 100만 토큰
deepseek-v4-pro $1.74 / 100만 토큰 $3.48 / 100만 토큰

아키텍처 세부 정보

하이브리드 어텐션 시스템

레이어 유형 메커니즘 목적
최근 토큰 레이어 표준 어텐션 가까운 컨텍스트의 완전한 정확도
중거리 토큰 레이어 압축 희소 어텐션 (CSA) 중간 거리 컨텍스트에 대한 효율적 접근
장거리 토큰 레이어 고도 압축 어텐션 (HCA) 먼 거리 기록의 압축 표현

1M 컨텍스트에서 V3.2 대비 효율성:

  • FLOPs: V3.2의 27% (73% 절감)
  • KV 캐시: V3.2의 10% (90% 절감)

학습 혁신 사항

혁신 설명
옵티마이저 Muon (AdamW 대체)
잔차 연결 mHC (Manifold-Constrained Hyper-Connections)
사전 학습 데이터 32조 개+ 다양한 토큰
후처리 학습 1단계 SFT + RL (GRPO)을 통한 전문가 특화
후처리 학습 2단계 온-폴리시 증류를 통한 통합 통합

추론 모드

모드 API 파라미터 사고 예산 컨텍스트 요구사항
비사고 모드 "thinking": {"type": "disabled"} 없음 표준
사고 (높음) 모드 "thinking": {"type": "enabled", "budget_tokens": N} 사용자 정의 표준
사고 (최대) 모드 특수 시스템 프롬프트 + "thinking": {"type": "max"} 확장 384K+ 토큰 권장

권장 샘플링 파라미터

{
  "temperature": 1.0,
  "top_p": 1.0
}

벤치마크 참조

V4-Pro-Max vs 최신 모델 비교

벤치마크 V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro 87.5% 89.1% 87.5% 91.0%
GPQA Diamond 90.1% 91.3% 93.0% 94.3%
HLE 37.7% 40.0% 39.8% 44.4%
LiveCodeBench 93.5% 88.8% N/A 91.7%
Codeforces 3206 N/A 3168 3052
SWE-bench Verified 80.6% 80.8% N/A 80.6%
SWE-bench Pro 55.4% 57.3% 57.7% 54.2%
Terminal Bench 2.0 67.9% 65.4% 75.1% 68.5%
MRCR 1M 83.5% 92.9% N/A 76.3%
CorpusQA 1M 62.0% 71.7% N/A 53.8%

로컬 배포 참조

구성 스토리지 VRAM 최소 GPU 구성
V4-Flash (전체) 160 GB ~160 GB 2× H100 80GB
V4-Flash (Q4 양자화) ~80 GB ~80 GB RTX 5090
V4-Pro (전체) 865 GB ~865 GB 16× H100 80GB
V4-Pro (Q4 양자화) ~200–400 GB ~200–400 GB 4–8× H100 80GB

채팅 템플릿

DeepSeek V4는 표준 HuggingFace Jinja 채팅 템플릿을 사용하지 않습니다. 각 리포지터리의 encoding/ 폴더에 있는 커스텀 인코딩 스크립트를 사용하세요.

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

prompt = encode_messages(messages, thinking_mode="no_think")  
# 옵션: "no_think", "thinking", "max_thinking"

알려진 제한 사항

  • 출시 시 텍스트 전용: 2026년 4월 프리뷰 릴리스에는 이미지, 오디오, 동영상의 기본 이해 기능이 없음
  • 프리뷰 상태: 엣지 케이스가 존재할 수 있으며, DeepSeek은 업데이트를 위해 공식 계정을 팔로우할 것을 권장
  • Think Max 컨텍스트 요구사항: 최고의 Think Max 성능을 위해 384K+ 토큰 컨텍스트 창이 필요
  • 대용량 다운로드: V4-Pro는 865 GB로 로컬 배포에 상당한 대역폭과 스토리지 필요
  • 채팅 템플릿: 비표준 인코딩으로 인해 표준 HuggingFace 파이프라인 도구 대신 리포지터리 제공 스크립트 사용 필요

연락처 및 지원

  • 공식 Twitter: @deepseek_ai
  • GitHub: github.com/deepseek-ai
  • HuggingFace: huggingface.co/deepseek-ai
  • API 문서: api-docs.deepseek.com
  • 이메일: service@deepseek.com
  • 웹 채팅: chat.deepseek.com

DeepSeek V4의 기능을 통합한 Framia.pro 같은 플랫폼에서 개발하는 개발자에게 이 모델 카드는 모든 통합 결정을 위한 공식 기술 참조 문서입니다.


인용

@misc{deepseekai2026deepseekv4,
  title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
  author={DeepSeek-AI},
  year={2026},
}