DeepSeek-V4 아키텍처

DeepSeek이 2026년 4월 발표한 1.6T 파라미터 MoE 모델. V3(600B) 대비 규모가 대폭 확대되었으며, 세 가지 알고리즘적 혁신으로 long-context 비용을 획기적으로 절감했다.

세 가지 핵심 알고리즘 혁신

1. Sparse Attention (3-component)

컴포넌트방식
Sliding Window Attention최근 ~500 토큰만 full attention
Block-sparse Attention전체를 100:1 압축 후 full attention
Compressed Sparse Attention4:1 압축 후 Lightning Indexer로 top-k 선택

효과: 연산량 27%, KV cache 메모리 10% (V3 Pro 대비)

2. mHC (Manifold-Constrained Hyper-Connections)

Residual connection의 통로 폭을 저렴하게 넓혀 깊은 모델의 학습 안정성을 확보.

3. Muon Optimizer

Adam 이후 중국 모델들이 표준으로 채택하는 optimizer. 학습 속도 가속 + 데이터 효율 향상.

Pre-training 전략

  • Dense warm-up: 1T 토큰 (4K→16K context)
  • Sparse attention: 30T+ 토큰 (64K 이상 context)
  • 총 데이터: 32T 토큰

기타 변경사항

  • MLA → Multi-Query Attention 교체
  • MXFP4(4-bit) expert weight 양자화
  • NVIDIA + 화웨이 칩 병행 사용

관련 노트