DeepSeek V4 AI 모델 상세 가이드: 전체 사양, 기능 및 성능

DeepSeek V4 AI 모델 완전 분석: Pro와 Flash 사양, 아키텍처, 벤치마크, 가격, API 호환성, 사용 사례별 추천 설정까지 총망라한 레퍼런스 가이드.

by Framia

DeepSeek V4 AI 모델 상세 가이드: 전체 사양, 기능 및 성능

이 글은 DeepSeek V4의 사양, 기능, 성능에 관한 모든 핵심 정보를 하나의 종합 레퍼런스로 정리한 것입니다. V4 시리즈를 평가하거나 통합하거나 연구하는 모든 분을 위한 완전한 가이드입니다.


핵심 사양

DeepSeek-V4-Pro

사양 세부 정보
아키텍처 Mixture of Experts (MoE) + 하이브리드 어텐션 (CSA + HCA) + mHC
총 파라미터 수 1.6조
활성 파라미터 수 (토큰당) 490억
컨텍스트 길이 1,000,000 토큰 (기본값)
사전 학습 데이터 32T+ 다양한 토큰
라이선스 MIT
출시일 2026년 4월 24일 (프리뷰)
정밀도 FP4 (전문가) + FP8 (기타 가중치) 혼합
다운로드 크기 약 865 GB
HuggingFace ID deepseek-ai/DeepSeek-V4-Pro
API 모델명 deepseek-v4-pro
API 입력 가격 100만 토큰당 $1.74
API 출력 가격 100만 토큰당 $3.48

DeepSeek-V4-Flash

사양 세부 정보
아키텍처 MoE + 하이브리드 어텐션 (CSA + HCA) + mHC
총 파라미터 수 2,840억
활성 파라미터 수 (토큰당) 130억
컨텍스트 길이 1,000,000 토큰 (기본값)
사전 학습 데이터 32T+ 다양한 토큰
라이선스 MIT
출시일 2026년 4월 24일 (프리뷰)
정밀도 FP4 (전문가) + FP8 (기타 가중치) 혼합
다운로드 크기 약 160 GB
HuggingFace ID deepseek-ai/DeepSeek-V4-Flash
API 모델명 deepseek-v4-flash
API 입력 가격 100만 토큰당 $0.14
API 출력 가격 100만 토큰당 $0.28

아키텍처 심층 분석

하이브리드 어텐션: CSA + HCA

V4 아키텍처의 핵심 혁신은 두 가지 상호 보완적인 어텐션 메커니즘의 결합입니다.

압축 희소 어텐션(CSA): 중간 거리의 컨텍스트에 대해 키-값 쌍에 토큰 단위 압축을 적용하여 정확도를 유지하면서 메모리와 연산 요구사항을 줄입니다.

고압축 어텐션(HCA): 매우 먼 토큰에 공격적인 압축을 적용하고, 컴팩트한 요약 표현을 저장함으로써 완전한 어텐션 오버헤드 없이 전체 백만 토큰 컨텍스트에 걸쳐 정보를 "기억"할 수 있게 합니다.

V3.2 대비 100만 토큰 컨텍스트에서의 복합 효과:

  • 추론 FLOPs: V3.2의 **27%**로 감소
  • KV 캐시 메모리: V3.2의 **10%**로 감소

다양체 제약 하이퍼 연결(mHC)

네트워크 전체에서 표준 잔차 연결을 대체합니다. 리만 다양체 위에 가중치 업데이트를 제한함으로써, mHC는 V4-Pro의 수백 개 트랜스포머 레이어에 걸친 신호 전파를 강화하여 1.6조 파라미터에서의 안정적인 학습을 가능하게 합니다.

Muon 옵티마이저

Muon (모멘텀 + 직교화) 옵티마이저가 AdamW를 대체합니다. 기울기 업데이트를 직교화함으로써:

  • 연속적인 업데이트 단계 간의 중복성 제거
  • 더 빠른 수렴 달성 (학습 단계당 더 많은 학습)
  • 32T+ 토큰 사전 학습 규모에서 더 높은 안정성 제공

세 가지 추론 모드

모드 설명 API 설정 컨텍스트 요구사항
Non-think 사고 연쇄 없는 직접 응답 thinking: {type: "disabled"} 표준
Think High 토큰 예산이 있는 구조화된 추론 thinking: {type: "enabled", budget_tokens: N} 표준
Think Max 확장된 철저한 추론 특수 시스템 프롬프트 + thinking: {type: "max"} 384K+ 토큰

성능 영향 (V4-Pro):

벤치마크 Non-Think Think Max
LiveCodeBench 56.8% 93.5%
GPQA Diamond 72.9% 90.1%
Codeforces Rating N/A 3206
HMMT 2026 Feb 31.7% 95.2%

주요 기능

코딩

  • 오픈 모델 최고 Codeforces 점수: 3206
  • LiveCodeBench: 93.5% (Pass@1)
  • SWE-bench Verified: 80.6% (해결)
  • SWE-bench Pro: 55.4% (해결)
  • SWE-bench Multilingual: 76.2% (해결)
  • Claude Code, OpenClaw, OpenCode와의 네이티브 통합

추론 및 지식

  • MMLU-Pro: 87.5% (Think Max)
  • GPQA Diamond: 90.1% (Think Max)
  • HLE: 37.7% (Think Max)
  • SimpleQA-Verified: 57.9% (Think Max)
  • MMMLU (다국어): 90.3% (기본)

장문 컨텍스트

  • MRCR 1M (헤이스택에서 바늘 찾기): 83.5% (Think Max) — Gemini-3.1-Pro 초과
  • CorpusQA 1M: 62.0% (Think Max) — Claude 외 최고 점수
  • LongBench-V2 (기본): 51.5%

에이전트 작업

  • Terminal Bench 2.0: 67.9% (Think Max)
  • SWE-bench Verified: 80.6%
  • MCPAtlas Public: 73.6% (Think Max) — 오픈 최고 점수
  • BrowseComp: 83.4% (Think Max)
  • Toolathlon: 51.8% (Think Max)

API 호환성

API 형식 지원 여부
OpenAI ChatCompletions ✅ 완전 호환
Anthropic Messages API ✅ 완전 호환
도구/함수 호출 ✅ 지원
스트리밍 ✅ 지원
사고 콘텐츠 (reasoning_content) ✅ Think High/Max 모드에서 사용 가능

사용 가능한 모델 변형

모델 유형 사용 가능한 플랫폼
DeepSeek-V4-Pro 인스트럭트 (채팅 최적화) HuggingFace, ModelScope, API
DeepSeek-V4-Pro-Base 사전 학습 기반 HuggingFace, ModelScope
DeepSeek-V4-Flash 인스트럭트 (채팅 최적화) HuggingFace, ModelScope, API
DeepSeek-V4-Flash-Base 사전 학습 기반 HuggingFace, ModelScope

에이전트 통합

DeepSeek V4는 다음과 네이티브 통합됩니다:

  • Claude Code — 선도적인 AI 코딩 어시스턴트
  • OpenClaw — 오픈소스 멀티 에이전트 프레임워크
  • OpenCode — 오픈소스 자율 코딩 시스템

이미 DeepSeek의 자체 내부 에이전트 코딩 인프라를 구동하고 있습니다.


접근 방법

  1. 웹: chat.deepseek.com (인스턴트 모드 = Flash; 전문가 모드 = Pro)
  2. API: api.deepseek.com/v1 — 모델을 deepseek-v4-pro 또는 deepseek-v4-flash로 업데이트
  3. HuggingFace: 로컬 배포를 위한 가중치 다운로드
  4. ModelScope: 중국 내 빠른 접근을 위한 대체 다운로드
  5. 서드파티 추론 제공업체: Novita를 포함한 여러 제공업체에서 V4 API 접근 제공

레거시 모델 마이그레이션

이전 모델명 라우팅 대상 지원 종료일
deepseek-chat deepseek-v4-flash (비사고) 2026년 7월 24일
deepseek-reasoner deepseek-v4-flash (사고) 2026년 7월 24일

작업 유형별 권장 구성

작업 권장 구성 이유
채팅 및 Q&A V4-Flash Non-think 빠르고 비용 효율적
코드 자동 완성 V4-Flash Non-think 속도가 중요
복잡한 알고리즘 설계 V4-Pro Think High 정확도/속도 균형
경쟁 프로그래밍 V4-Pro Think Max 최고 성능
문서 요약 V4-Flash Non-think 대용량 작업 처리
심층 문서 분석 V4-Pro Think High 대규모 컨텍스트에서의 정확도
자율 에이전트 V4-Pro Think Max 복잡한 다단계 작업

Framia.pro와 같은 AI 네이티브 플랫폼은 이러한 구성 간에 지능적인 라우팅을 구현하여 작업 복잡도를 올바른 V4 변형 및 모드와 매칭시킴으로써 크리에이티브 워크플로우의 품질과 비용을 모두 최적화합니다.


결론

DeepSeek V4는 2026년 4월 현재 이용 가능한 가장 강력한 오픈 웨이트 모델 시리즈입니다. 1.6조 파라미터(V4-Pro), MIT 라이선스, 표준 100만 토큰 컨텍스트 윈도우, 세 가지 추론 모드, 프론티어 수준의 코딩 능력, 그리고 클로즈드 소스 대안 대비 10~35배 저렴한 가격으로, 접근 가능한 AI 역량에서 진정한 패러다임 전환을 나타냅니다.