DeepSeek V4 사고 모드 완벽 가이드: Non-Think, Think High, Think Max 비교
DeepSeek V4의 가장 독보적인 기능 중 하나는 바로 3단계 추론 시스템입니다. 단순히 '추론 있음' 또는 '추론 없음'이라는 이분법 대신, V4는 모델에 적용할 인지적 노력의 정도를 세밀하게 조절할 수 있습니다. 즉각적인 응답부터 깊고 확장된 연쇄 사고(Chain-of-Thought) 추론까지 자유롭게 설정 가능합니다.
세 가지 모드 한눈에 보기
| 모드 | 설명 | 속도 | 정확도 | 최적 활용 |
|---|---|---|---|---|
| Non-Think | 연쇄 사고 없는 직접 응답 | 가장 빠름 | 기본 | 일상 작업, 간단한 Q&A |
| Think High | 제어된 연쇄 사고 추론 | 보통 | 높음 | 복잡한 문제, 계획 수립 |
| Think Max | 확장·완전 탐색 추론 | 가장 느림 | 최대 | 경시대회 수학, 최첨단 코딩 |
세 가지 모드 모두 V4-Pro와 V4-Flash에서 사용할 수 있습니다.
모드 1: Non-Think
Non-Think는 가장 빠른 모드입니다. 모델은 명시적인 연쇄 사고 없이 직관적으로 응답을 생성합니다. 이는 기존 LLM의 작동 방식과 동일하지만, V4의 규모 덕분에 여전히 놀랍도록 높은 성능을 발휘합니다.
응답 형식: 출력은 빈 </think> 태그(추론 트레이스 없음을 의미)로 시작하며, 바로 이어서 요약/답변이 나타납니다.
최적 활용:
- 실시간 대화형 인터페이스
- 간단한 분류 또는 추출 작업
- 저지연 자동완성 및 추천
- 비용과 속도가 가장 중요한 대량 배치 처리
API 설정:
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "What's the capital of France?"}],
extra_body={"thinking": {"type": "disabled"}}
)
벤치마크 비교 (V4-Pro Non-Think vs Think Max):
| 벤치마크 | Non-Think | Think Max |
|---|---|---|
| GPQA Diamond | 72.9% | 90.1% |
| LiveCodeBench | 56.8% | 93.5% |
| Codeforces Rating | N/A | 3206 |
| HMMT 2026 Feb | 31.7% | 95.2% |
어려운 추론 작업에서 Non-Think와 Think Max의 차이는 극적으로 나타나며, 경쟁 코딩에서는 최대 60퍼센트 포인트 차이가 발생합니다.
모드 2: Think High
Think High는 제어된 연쇄 사고 추론 프로세스를 활성화합니다. 모델은 답변 전에 문제를 명시적으로 '생각하며' 검토하지만, 추론 비용이 폭주하지 않도록 사고 예산이 제한됩니다.
응답 형식: 추론 트레이스를 포함한 <think> 블록 이후 </think>와 최종 요약이 이어집니다.
최적 활용:
- 정확도가 중요하지만 속도도 여전히 중요한 복잡한 문제 해결
- 계획 수립 및 다단계 추론
- 코드 디버깅 및 분석
- 리서치 종합 및 비교 작업
API 설정:
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Design a distributed cache with LRU eviction."}],
extra_body={"thinking": {"type": "enabled", "budget_tokens": 8000}}
)
# 추론 트레이스 접근
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
budget_tokens 파라미터로 추론 트레이스에 할당할 토큰 예산을 제어할 수 있습니다.
모드 3: Think Max
Think Max는 V4를 절대적인 추론 한계까지 밀어붙이는 모드입니다. 특별한 시스템 프롬프트를 사용하여 모델이 응답 전에 가능한 한 깊고 철저하게 추론하도록 지시합니다.
응답 형식: 특별 시스템 프롬프트 + 확장된 <think> 추론 트레이스 + </think> 최종 답변.
핵심 요건: 어려운 문제에서 추론 트레이스가 매우 길어질 수 있기 때문에 DeepSeek은 Think Max에 최소 384K 토큰의 컨텍스트 윈도우를 권장합니다.
최적 활용:
- 경시대회 수준의 수학 (IMO, HMMT, Putnam)
- 최첨단 소프트웨어 엔지니어링 과제
- 과학적 가설 생성 및 분석
- 속도나 비용보다 정확한 답이 더 중요한 모든 작업
API 설정 (개요):
THINK_MAX_SYSTEM_PROMPT = "..." # api-docs.deepseek.com/guides/thinking_mode의 정확한 프롬프트 사용
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": THINK_MAX_SYSTEM_PROMPT},
{"role": "user", "content": "Prove that there are infinitely many primes."}
],
max_tokens=32768,
extra_body={"thinking": {"type": "max"}}
)
벤치마크: 추론 모드의 영향
아래 표는 V4-Flash를 세 가지 모드로 비교한 것으로, 추론 깊이가 성능에 어떠한 영향을 미치는지를 극명하게 보여줍니다.
| 벤치마크 | Flash Non-Think | Flash Think High | Flash Think Max |
|---|---|---|---|
| MMLU-Pro | 83.0% | 86.4% | 86.2% |
| GPQA Diamond | 71.2% | 87.4% | 88.1% |
| HLE | 8.1% | 29.4% | 34.8% |
| LiveCodeBench | 55.2% | 88.4% | 91.6% |
| Codeforces Rating | N/A | 2816 | 3052 |
| HMMT 2026 Feb | 40.8% | 91.9% | 94.8% |
Think Max 모드의 V4-Flash도 Codeforces 3052를 달성했으며, 이는 Gemini-3.1-Pro와 경쟁 가능한 수준이고 V4-Pro-Max보다 단 154포인트 낮습니다. 이는 사고 아키텍처가 모델의 성능 도약에 근본적임을 보여줍니다.
각 모드의 경제적 활용 기준
Think Max는 더 긴 추론 트레이스를 생성하므로 출력 토큰 소모가 늘어납니다.
| 모드 | 응답당 예상 토큰 수 | 쿼리당 비용 (V4-Flash) |
|---|---|---|
| Non-Think | ~200-500 | ~$0.0001 |
| Think High | ~2,000-8,000 | ~$0.0010 |
| Think Max | ~8,000-50,000 | ~$0.005-$0.014 |
Think Max 모드에서도 V4-Flash는 매우 경제적입니다. 난이도 높은 추론 문제도 쿼리당 $0.01-$0.05 수준으로, 클로즈드 소스 모델이 기본 응답에 부과하는 비용의 극히 일부에 불과합니다.
멀티턴 대화와 모드 전환
멀티턴 대화에서 각 턴마다 추론 모드를 전환할 수 있습니다. 예를 들어:
- 가벼운 대화와 컨텍스트 구성 턴에는 Non-Think 사용
- 복잡한 질문이 등장하면 Think High로 전환
- 가장 까다로운 작업에는 Think Max로 격상
다단계 AI 크리에이티브 워크플로를 조율하는 Framia.pro 같은 플랫폼은 이 단계적 구조를 활용할 수 있습니다. 일상적인 단계에는 빠른 Non-Think 응답을, 모델의 가장 깊은 능력이 필요한 작업에는 Think Max로 격상하는 방식입니다.
결론
DeepSeek V4의 세 가지 추론 모드는 개발자와 사용자에게 성능-비용-지연 시간 트레이드오프를 전례 없는 수준으로 제어할 수 있는 힘을 제공합니다. Non-Think는 즉각적인 응답을 제공하고, Think High는 속도와 정확도를 균형 있게 조율하며, Think Max는 모델을 절대적인 한계까지 밀어붙입니다. 그 결과, 단순한 자동완성부터 경시대회 수준의 수학 추론까지 모두 동일한 API 안에서 지원하는 단일 모델이 탄생합니다.