DeepSeek V4 학습 방법: 모델은 어떻게 구축되었나
DeepSeek V4가 어떻게 학습되었는지 이해하면 왜 이런 성능을 발휘하는지, 그리고 어떤 아키텍처적·데이터적 결정이 코딩·추론·장문 컨텍스트 처리에서 기대를 뛰어넘는 모델을 만들어냈는지 파악할 수 있습니다. 이 글에서는 V4의 사전학습, 사후학습, 그리고 전 세대와 차별화되는 핵심 혁신을 살펴봅니다.
사전학습: 규모와 데이터
데이터셋 크기: 32조 토큰 이상
V4-Pro와 V4-Flash는 모두 다양하고 고품질의 32조 개 이상의 토큰으로 사전학습되었습니다. 이는 DeepSeek-V3의 추정 사전학습 토큰(약 18조)의 거의 두 배에 해당하며, 학습 연산과 데이터 큐레이션에 대한 막대한 투자를 의미합니다.
학습 코퍼스의 구성:
- 자연어 — 수십 개 언어의 웹 텍스트, 책, 기사
- 코드 — 모든 주요 프로그래밍 언어의 소스 코드
- 수학 — 형식 증명, 경시 문제, 교재
- 과학 문헌 — STEM 분야 연구 논문
- 다국어 콘텐츠 — MMMLU 90.3%가 입증하는 풍부한 다국어 지원
데이터 양이 중요한 이유
학습 데이터 규모와 모델 성능의 관계는 선형적이지 않습니다. 그러나 최전선 규모에서는 고품질의 다양한 데이터가 많을수록 지식의 폭, 사실 정확도, 일반화 능력이 일관되게 향상됩니다.
V4-Pro-Base의 SimpleQA-Verified 점수가 극적으로 상승한 것(55.2% 대 V3.2의 28.3%)은 데이터 규모 확대와 개선된 데이터 큐레이션이 결합된 결과입니다. 모델이 훨씬 더 많은 세계 지식을 학습한 것입니다.
Muon 옵티마이저
DeepSeek은 V4에서 표준 AdamW 옵티마이저를 Muon 옵티마이저로 교체했습니다.
Muon의 작동 방식
표준 Adam 기반 옵티마이저는 그래디언트의 방향과 크기를 기반으로 파라미터를 업데이트합니다. Muon은 여기에 직교화 단계를 추가합니다: 그래디언트 업데이트를 적용하기 전에 현재 업데이트와 이전 업데이트 방향 간의 상관관계를 제거합니다.
그 결과:
- 빠른 수렴: 각 학습 단계에서 더 많은 유용한 정보를 추출
- 높은 안정성: 직교화된 업데이트는 진동이나 발산을 일으킬 가능성이 낮음
- 우수한 확장성: Muon의 안정성 특성은 V4의 규모(1.6조 파라미터)에서 특히 가치 있음
더 효율적인 파라미터 공간 탐색으로 이해할 수 있습니다: Muon은 각 그래디언트 업데이트가 진정으로 새로운 방향으로 나아가도록 보장함으로써 중복 단계를 방지합니다.
사전학습 중의 아키텍처 혁신
하이브리드 어텐션 아키텍처 (CSA + HCA)
Multi-head Latent Attention(MLA)을 사용했던 V3.2와 달리, V4는 처음부터 하이브리드 어텐션 아키텍처로 사전학습됩니다. 이는 모델의 내부 표현이 처음부터 CSA + HCA 메커니즘에 의해 형성된다는 것을 의미합니다. 이전 아키텍처에 나중에 덧붙인 것이 아닙니다.
V4가 100만 토큰 컨텍스트를 더 자연스럽게 처리하는 이유가 바로 여기에 있습니다: 사전학습 중에 학습된 어텐션 패턴이 계층적 압축 구조에 최적화되어 있기 때문입니다.
매니폴드 제약 하이퍼 연결 (mHC)
mHC는 네트워크 전체의 표준 잔차 연결을 대체합니다. 처음부터 mHC로 사전학습하면 모델의 가중치 행렬이 안정적인 신호 전파를 촉진하는 구조적으로 제약된 공간 내에서 발전합니다.
실질적 효과: 표준 아키텍처를 이 규모로 확장할 때 발생하는 치명적 불안정성 없이 1.6조 파라미터 모델을 32조+ 토큰으로 학습하는 것이 가능해집니다.
사후학습: 2단계 파이프라인
1단계: 독립적 전문가 육성
MoE 아키텍처의 개별 전문가들은 도메인 특화를 위해 독립적으로 학습됩니다:
지도 미세조정(SFT):
- 각 전문가의 도메인에서 고품질의 레이블된 예시
- 각 전문 분야에서 지시를 정확히 따르도록 모델을 학습
- 코딩, 수학, 과학, 언어, 일반 상식, 안전성 포함
GRPO를 활용한 강화학습:
- Group Relative Policy Optimization은 샘플 그룹 대비 더 나은 응답을 생성하면 모델에 보상을 부여
- 각 도메인/전문가에게 독립적으로 적용
- 별도의 보상 모델 없이 인간 선호도에 맞는 전문가 행동을 형성
2단계: 통합 모델 통합
1단계 이후, 독립적으로 학습된 전문가들은 온폴리시 증류를 통해 통합 모델에 통합됩니다:
- 1단계의 특화 모델이 다양한 작업에서 출력을 생성
- 최종 모델은 이 출력을 매칭(증류)하도록 학습
- 라우팅 메커니즘이 각 작업에 적합한 전문가를 활성화하는 것을 학습
이 통합 단계가 V4-Pro에게 매우 다른 도메인에 걸쳐 깊은 역량이라는 특이한 조합을 부여합니다. 각 전문가는 진정으로 특화되어 있고, 라우터는 이들을 적절히 활용하는 것을 학습했습니다.
하드웨어: Huawei Ascend 950PR
V4 학습에 관한 가장 중요한 사실 중 하나는 하드웨어입니다:
V4는 Huawei Ascend 950PR 칩으로 학습되었습니다 — NVIDIA의 A100이나 H100이 아닙니다.
여기에는 몇 가지 함의가 있습니다:
기술적 측면: Huawei Ascend 950PR은 대규모 모델에 경쟁력 있는 학습 처리량을 가진 고성능 AI 가속기입니다. V4의 결과는 이 하드웨어에서 프론티어 AI 학습이 달성 가능함을 보여줍니다.
지정학적 측면: 미국의 수출 규제로 인해 중국 기업들은 NVIDIA의 최첨단 칩에 대한 접근이 제한됩니다. DeepSeek이 Ascend 하드웨어로 V4를 성공적으로 학습한 것은 중국의 국내 AI 칩 역량이 많은 사람이 생각한 것보다 높다는 것을 보여줍니다.
전략적 측면: 국내 하드웨어를 기반으로 구축함으로써, DeepSeek(더 나아가 중국의 AI 생태계)은 프론티어 AI 개발에서 미국이 통제하는 공급망에 대한 의존도를 줄이고 있습니다.
사후학습 정렬
2단계 RLHF 파이프라인 이후, V4는 안전성에 중점을 둔 정렬 조정을 거칩니다:
- 안전 관련 시나리오를 다루는 추가 SFT 예시
- 지시 따르기에 내재된 헌법 스타일 지침
- V4가 지원하는 언어 전반에 걸친 다국어 안전 정렬
DeepSeek의 안전성 사후학습의 정확한 범위는 공개 기술 보고서에 완전히 문서화되어 있지 않지만, 업계 표준 관행과 이전 모델에서의 DeepSeek 실적을 감안할 때 일반적인 유해 사용 사례에 대한 포괄적인 커버리지가 이루어졌을 것으로 보입니다.
학습 비용: 효율성 이야기
DeepSeek은 이전부터 서방 경쟁사보다 훨씬 낮은 학습 비용으로 프론티어 수준의 결과를 달성한 것으로 주목받아 왔습니다. V4의 학습 비용은 공식적으로 공개되지 않았지만, 여러 요인들이 지속적인 효율성 우위를 시사합니다:
- Muon 옵티마이저: 낭비되는 그래디언트 단계 감소
- mHC 안정성: 학습 불안정성으로 인한 연산 손실 감소
- MoE 희소성: 1.6조가 아닌 토큰당 490억 개의 활성 파라미터
- Ascend 950PR 최적화: 이러한 유형의 학습을 위해 특별히 설계
아키텍처 및 옵티마이저 개선의 조합으로 V4는 이전 방식보다 학습 FLOP당 더 많은 역량을 이끌어냅니다.
V3.2에서 V4로: 학습의 변화
| 학습 측면 | V3.2 | V4 |
|---|---|---|
| 옵티마이저 | AdamW 변종 | Muon |
| 잔차 연결 | 표준 | mHC |
| 어텐션 메커니즘 | MLA | 하이브리드 (CSA + HCA) |
| 사전학습 토큰 | 약 18조 | 32조+ |
| 사후학습 파이프라인 | SFT + RL | 2단계: 특화 + 통합 |
| 하드웨어 | NVIDIA (H800 동급) | Huawei Ascend 950PR |
업계에 대한 시사점
V4의 학습 방법론 — 특히 Muon 옵티마이저, mHC, 2단계 사후학습 — 은 기술 보고서에 공개적으로 문서화되어 연구 커뮤니티가 연구하고 재현할 수 있습니다. DeepSeek의 투명성은 그들의 연구 우선 문화를 반영합니다.
프론티어 AI 역량을 통합하는 Framia.pro 같은 플랫폼들은 이러한 지식 공유 문화의 혜택을 받습니다: 이러한 학습 기법들이 생태계 전반에 걸쳐 복제되고 정제됨에 따라 AI 모델의 품질 상한이 계속 높아져 모든 하위 애플리케이션이 향상됩니다.
결론
DeepSeek V4는 전례 없는 데이터 규모(32조+ 토큰), 아키텍처 혁신(하이브리드 어텐션, mHC), 옵티마이저 개선(Muon), 그리고 새로운 2단계 사후학습 파이프라인의 조합으로 구축되었습니다. 그 결과는 중국 국내 하드웨어 스택에서 프론티어급 성능을 달성하는 모델입니다. 이는 AI 개발에서 기술적·전략적 이정표로 V4를 자리매김하는 획기적인 성과입니다.