DeepSeek V4 AI 모델 상세 가이드: 전체 사양, 기능 및 성능
이 글은 DeepSeek V4의 사양, 기능, 성능에 관한 모든 핵심 정보를 하나의 종합 레퍼런스로 정리한 것입니다. V4 시리즈를 평가하거나 통합하거나 연구하는 모든 분을 위한 완전한 가이드입니다.
핵심 사양
DeepSeek-V4-Pro
| 사양 | 세부 정보 |
|---|---|
| 아키텍처 | Mixture of Experts (MoE) + 하이브리드 어텐션 (CSA + HCA) + mHC |
| 총 파라미터 수 | 1.6조 |
| 활성 파라미터 수 (토큰당) | 490억 |
| 컨텍스트 길이 | 1,000,000 토큰 (기본값) |
| 사전 학습 데이터 | 32T+ 다양한 토큰 |
| 라이선스 | MIT |
| 출시일 | 2026년 4월 24일 (프리뷰) |
| 정밀도 | FP4 (전문가) + FP8 (기타 가중치) 혼합 |
| 다운로드 크기 | 약 865 GB |
| HuggingFace ID | deepseek-ai/DeepSeek-V4-Pro |
| API 모델명 | deepseek-v4-pro |
| API 입력 가격 | 100만 토큰당 $1.74 |
| API 출력 가격 | 100만 토큰당 $3.48 |
DeepSeek-V4-Flash
| 사양 | 세부 정보 |
|---|---|
| 아키텍처 | MoE + 하이브리드 어텐션 (CSA + HCA) + mHC |
| 총 파라미터 수 | 2,840억 |
| 활성 파라미터 수 (토큰당) | 130억 |
| 컨텍스트 길이 | 1,000,000 토큰 (기본값) |
| 사전 학습 데이터 | 32T+ 다양한 토큰 |
| 라이선스 | MIT |
| 출시일 | 2026년 4월 24일 (프리뷰) |
| 정밀도 | FP4 (전문가) + FP8 (기타 가중치) 혼합 |
| 다운로드 크기 | 약 160 GB |
| HuggingFace ID | deepseek-ai/DeepSeek-V4-Flash |
| API 모델명 | deepseek-v4-flash |
| API 입력 가격 | 100만 토큰당 $0.14 |
| API 출력 가격 | 100만 토큰당 $0.28 |
아키텍처 심층 분석
하이브리드 어텐션: CSA + HCA
V4 아키텍처의 핵심 혁신은 두 가지 상호 보완적인 어텐션 메커니즘의 결합입니다.
압축 희소 어텐션(CSA): 중간 거리의 컨텍스트에 대해 키-값 쌍에 토큰 단위 압축을 적용하여 정확도를 유지하면서 메모리와 연산 요구사항을 줄입니다.
고압축 어텐션(HCA): 매우 먼 토큰에 공격적인 압축을 적용하고, 컴팩트한 요약 표현을 저장함으로써 완전한 어텐션 오버헤드 없이 전체 백만 토큰 컨텍스트에 걸쳐 정보를 "기억"할 수 있게 합니다.
V3.2 대비 100만 토큰 컨텍스트에서의 복합 효과:
- 추론 FLOPs: V3.2의 **27%**로 감소
- KV 캐시 메모리: V3.2의 **10%**로 감소
다양체 제약 하이퍼 연결(mHC)
네트워크 전체에서 표준 잔차 연결을 대체합니다. 리만 다양체 위에 가중치 업데이트를 제한함으로써, mHC는 V4-Pro의 수백 개 트랜스포머 레이어에 걸친 신호 전파를 강화하여 1.6조 파라미터에서의 안정적인 학습을 가능하게 합니다.
Muon 옵티마이저
Muon (모멘텀 + 직교화) 옵티마이저가 AdamW를 대체합니다. 기울기 업데이트를 직교화함으로써:
- 연속적인 업데이트 단계 간의 중복성 제거
- 더 빠른 수렴 달성 (학습 단계당 더 많은 학습)
- 32T+ 토큰 사전 학습 규모에서 더 높은 안정성 제공
세 가지 추론 모드
| 모드 | 설명 | API 설정 | 컨텍스트 요구사항 |
|---|---|---|---|
| Non-think | 사고 연쇄 없는 직접 응답 | thinking: {type: "disabled"} |
표준 |
| Think High | 토큰 예산이 있는 구조화된 추론 | thinking: {type: "enabled", budget_tokens: N} |
표준 |
| Think Max | 확장된 철저한 추론 | 특수 시스템 프롬프트 + thinking: {type: "max"} |
384K+ 토큰 |
성능 영향 (V4-Pro):
| 벤치마크 | Non-Think | Think Max |
|---|---|---|
| LiveCodeBench | 56.8% | 93.5% |
| GPQA Diamond | 72.9% | 90.1% |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31.7% | 95.2% |
주요 기능
코딩
- 오픈 모델 최고 Codeforces 점수: 3206
- LiveCodeBench: 93.5% (Pass@1)
- SWE-bench Verified: 80.6% (해결)
- SWE-bench Pro: 55.4% (해결)
- SWE-bench Multilingual: 76.2% (해결)
- Claude Code, OpenClaw, OpenCode와의 네이티브 통합
추론 및 지식
- MMLU-Pro: 87.5% (Think Max)
- GPQA Diamond: 90.1% (Think Max)
- HLE: 37.7% (Think Max)
- SimpleQA-Verified: 57.9% (Think Max)
- MMMLU (다국어): 90.3% (기본)
장문 컨텍스트
- MRCR 1M (헤이스택에서 바늘 찾기): 83.5% (Think Max) — Gemini-3.1-Pro 초과
- CorpusQA 1M: 62.0% (Think Max) — Claude 외 최고 점수
- LongBench-V2 (기본): 51.5%
에이전트 작업
- Terminal Bench 2.0: 67.9% (Think Max)
- SWE-bench Verified: 80.6%
- MCPAtlas Public: 73.6% (Think Max) — 오픈 최고 점수
- BrowseComp: 83.4% (Think Max)
- Toolathlon: 51.8% (Think Max)
API 호환성
| API 형식 | 지원 여부 |
|---|---|
| OpenAI ChatCompletions | ✅ 완전 호환 |
| Anthropic Messages API | ✅ 완전 호환 |
| 도구/함수 호출 | ✅ 지원 |
| 스트리밍 | ✅ 지원 |
사고 콘텐츠 (reasoning_content) |
✅ Think High/Max 모드에서 사용 가능 |
사용 가능한 모델 변형
| 모델 | 유형 | 사용 가능한 플랫폼 |
|---|---|---|
| DeepSeek-V4-Pro | 인스트럭트 (채팅 최적화) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Pro-Base | 사전 학습 기반 | HuggingFace, ModelScope |
| DeepSeek-V4-Flash | 인스트럭트 (채팅 최적화) | HuggingFace, ModelScope, API |
| DeepSeek-V4-Flash-Base | 사전 학습 기반 | HuggingFace, ModelScope |
에이전트 통합
DeepSeek V4는 다음과 네이티브 통합됩니다:
- Claude Code — 선도적인 AI 코딩 어시스턴트
- OpenClaw — 오픈소스 멀티 에이전트 프레임워크
- OpenCode — 오픈소스 자율 코딩 시스템
이미 DeepSeek의 자체 내부 에이전트 코딩 인프라를 구동하고 있습니다.
접근 방법
- 웹: chat.deepseek.com (인스턴트 모드 = Flash; 전문가 모드 = Pro)
- API: api.deepseek.com/v1 — 모델을
deepseek-v4-pro또는deepseek-v4-flash로 업데이트 - HuggingFace: 로컬 배포를 위한 가중치 다운로드
- ModelScope: 중국 내 빠른 접근을 위한 대체 다운로드
- 서드파티 추론 제공업체: Novita를 포함한 여러 제공업체에서 V4 API 접근 제공
레거시 모델 마이그레이션
| 이전 모델명 | 라우팅 대상 | 지원 종료일 |
|---|---|---|
| deepseek-chat | deepseek-v4-flash (비사고) | 2026년 7월 24일 |
| deepseek-reasoner | deepseek-v4-flash (사고) | 2026년 7월 24일 |
작업 유형별 권장 구성
| 작업 | 권장 구성 | 이유 |
|---|---|---|
| 채팅 및 Q&A | V4-Flash Non-think | 빠르고 비용 효율적 |
| 코드 자동 완성 | V4-Flash Non-think | 속도가 중요 |
| 복잡한 알고리즘 설계 | V4-Pro Think High | 정확도/속도 균형 |
| 경쟁 프로그래밍 | V4-Pro Think Max | 최고 성능 |
| 문서 요약 | V4-Flash Non-think | 대용량 작업 처리 |
| 심층 문서 분석 | V4-Pro Think High | 대규모 컨텍스트에서의 정확도 |
| 자율 에이전트 | V4-Pro Think Max | 복잡한 다단계 작업 |
Framia.pro와 같은 AI 네이티브 플랫폼은 이러한 구성 간에 지능적인 라우팅을 구현하여 작업 복잡도를 올바른 V4 변형 및 모드와 매칭시킴으로써 크리에이티브 워크플로우의 품질과 비용을 모두 최적화합니다.
결론
DeepSeek V4는 2026년 4월 현재 이용 가능한 가장 강력한 오픈 웨이트 모델 시리즈입니다. 1.6조 파라미터(V4-Pro), MIT 라이선스, 표준 100만 토큰 컨텍스트 윈도우, 세 가지 추론 모드, 프론티어 수준의 코딩 능력, 그리고 클로즈드 소스 대안 대비 10~35배 저렴한 가격으로, 접근 가능한 AI 역량에서 진정한 패러다임 전환을 나타냅니다.