DeepSeek V4 벤치마크: LiveCodeBench, MMLU, SWE-bench 등 성능 완전 분석

DeepSeek V4-Pro, LiveCodeBench 93.5%, Codeforces 3206점, GPQA Diamond 90.1% 달성. 모든 모드와 경쟁 모델 대비 완전 벤치마크 분석.

by Framia

DeepSeek V4 벤치마크: LiveCodeBench, MMLU, SWE-bench 등 성능 완전 분석

DeepSeek V4가 2026년 4월 24일 공개되었습니다. 현재 이용 가능한 최고의 오픈소스 모델, 최고 Codeforces 레이팅, 추론·지식·에이전트 작업에서 프론티어 모델에 근접한 성능을 표방합니다. 모델 변형과 추론 모드별로 정리된 모든 주요 벤치마크 결과를 완전하게 분석합니다.


DeepSeek V4 벤치마크 모드 이해

DeepSeek V4는 여섯 가지 구성으로 결과를 보고합니다:

구성 설명
V4-Flash Non-Think 빠름, 사고 체인 없음
V4-Flash Think High 중간 수준의 확장 추론
V4-Flash Think Max 최대 추론 노력 (Flash)
V4-Pro Non-Think 빠름, 사고 체인 없음 (Pro)
V4-Pro Think High 중간 수준의 확장 추론 (Pro)
V4-Pro Think Max 최대 추론 — 최고 전체 결과

대부분의 경쟁 벤치마크는 V4-Pro-Max 결과를 보고합니다. 헤드라인에서 "DeepSeek V4"라고 볼 때 인용되는 수치입니다.


코딩 벤치마크

벤치마크 V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
LiveCodeBench (Pass@1) 91.6% 93.5% 88.8% N/A 91.7%
Codeforces 레이팅 3052 3206 N/A 3168 3052
HMMT 2026 Feb (Pass@1) 94.8% 95.2% 96.2% 97.7% 94.7%
IMOAnswerBench (Pass@1) 88.4% 89.8% 75.3% 91.4% 81.0%

주목할 결과:

  • V4-Pro-Max는 테스트된 모든 모델 중 최고 Codeforces 레이팅(3206)을 달성하며 GPT-5.4(3168)와 Claude Opus 4.6(N/A)을 앞섰습니다
  • V4-Pro-Max는 데이터가 있는 모델 중 LiveCodeBench(93.5%)에서도 선두입니다
  • 수학 경시대회(IMO)에서는 GPT-5.4가 근소하게 앞섭니다(91.4% vs 89.8%)

지식 및 추론 벤치마크

벤치마크 V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
MMLU-Pro (EM) 86.2% 87.5% 89.1% 87.5% 91.0%
GPQA Diamond (Pass@1) 88.1% 90.1% 91.3% 93.0% 94.3%
HLE (Pass@1) 34.8% 37.7% 40.0% 39.8% 44.4%
SimpleQA-Verified (Pass@1) 34.1% 57.9% 46.2% 45.3% 75.6%
Apex Shortlist (Pass@1) 85.7% 90.2% 85.9% 78.1% 89.1%

주요 관찰:

  • Gemini-3.1-Pro는 대부분의 지식 벤치마크(MMLU-Pro, GPQA Diamond, SimpleQA, HLE)에서 선두
  • V4-Pro-Max는 고난도 추론 벤치마크 Apex Shortlist(90.2%)에서 1위
  • V4-Pro-Max의 SimpleQA 점수(57.9%)는 Opus 4.6(46.2%)과 GPT-5.4(45.3%)를 크게 앞서며 강력한 사실 회상 능력을 나타냅니다

장문 컨텍스트 벤치마크

벤치마크 V4-Flash Max V4-Pro Max Opus 4.6 Max Gemini-3.1-Pro High
MRCR 1M (MMR) 78.7% 83.5% 92.9% 76.3%
CorpusQA 1M (ACC) 60.5% 62.0% 71.7% 53.8%

분석:

  • V4-Pro는 CorpusQA 1M에서 Gemini-3.1-Pro를 앞섭니다(62.0% vs 53.8%)
  • Claude Opus 4.6이 MRCR 1M에서 선두(92.9% vs 83.5%) — Claude의 문서 검색 최적화 아키텍처 덕분으로 추정
  • 두 V4 모델 모두 CorpusQA에서 Gemini를 편안하게 앞서며 RAG 워크로드에 강점을 보입니다

에이전트 작업 벤치마크

벤치마크 V4-Flash Max V4-Pro Max Opus 4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High
Terminal Bench 2.0 (Acc) 56.9% 67.9% 65.4% 75.1% 68.5%
SWE-bench Verified (Resolved) 79.0% 80.6% 80.8% N/A 80.6%
SWE-bench Pro (Resolved) 52.6% 55.4% 57.3% 57.7% 54.2%
BrowseComp (Pass@1) 73.2% 83.4% 83.7% 82.7% 85.9%
MCPAtlas Public (Pass@1) 69.0% 73.6% 73.8% 67.2% 69.2%
Toolathlon (Pass@1) 47.8% 51.8% 47.2% 54.6% 48.8%

주목할 결과:

  • SWE-bench Verified: V4-Pro(80.6%)는 Gemini-3.1-Pro(80.6%)와 동점, Opus 4.6(80.8%)에도 근접 — 오픈 모델로서 놀라운 성과
  • MCPAtlas: V4-Pro(73.6%)는 카테고리 선두 Opus 4.6(73.8%)에 거의 근접
  • Terminal Bench 2.0: GPT-5.4가 선두(75.1%), V4-Pro는 67.9%

베이스 모델 벤치마크

V4-Pro-Base(사전 학습됨, 인스트럭션 튜닝 전)의 결과는 인상적인 원시 능력을 보여줍니다:

벤치마크 DS-V3.2-Base V4-Flash-Base V4-Pro-Base
MMLU (EM) 87.8% 88.7% 90.1%
MMLU-Redux (EM) 87.5% 89.4% 90.8%
GSM8K (EM) 91.1% 90.8% 92.6%
HumanEval (Pass@1) 62.8% 69.5% 76.8%
LongBench-V2 (EM) 40.2% 44.7% 51.5%

V4-Pro-Base는 모든 카테고리에서 V3.2-Base와 V4-Flash-Base를 꾸준히 앞섭니다.


요약: DeepSeek V4의 강점과 약점

V4-Pro-Max가 선두인 분야:

  • Codeforces 경쟁 프로그래밍 (레이팅 3206)
  • LiveCodeBench (93.5%)
  • Apex Shortlist 추론 (90.2%)
  • SimpleQA 사실 회상 (57.9%) — 대부분의 비-Gemini 모델 대비

V4-Pro-Max가 뒤처지는 분야:

  • GPQA Diamond (Gemini가 94.3%로 선두)
  • HLE 최고 난이도 추론 (Gemini가 44.4%로 선두)
  • MRCR 1M 장문 컨텍스트 (Opus 4.6이 92.9%로 선두)
  • Terminal Bench 2.0 에이전트 작업 (GPT-5.4가 75.1%로 선두)

코딩, 에이전트 작업, 장문 컨텍스트 이해가 핵심 사용 사례인 Framia.pro 같은 AI 네이티브 플랫폼에서, DeepSeek V4-Pro의 벤치마크 프로필은 2026년에 가장 유력한 선택지 중 하나입니다.


결론

DeepSeek V4-Pro는 거의 모든 벤치마크 카테고리에서 최고의 오픈 웨이트 모델이며, 모든 클로즈드 소스 프론티어 모델과 의미 있게 경쟁합니다. 가장 뛰어난 성과는 경쟁 코딩 분야로, 테스트된 모든 모델을 능가합니다. 최고 난이도의 과학적 추론과 장문 문서 검색 작업에서는 약간 뒤처지지만, 그 격차는 꾸준히 좁혀지고 있습니다.