Muon Optimizer
Adam optimizer의 대안으로 주목받는 LLM 사전 학습용 optimizer. 중국 프론티어 랩들이 거의 표준으로 채택하고 있다.
특징
- 학습 속도 가속: 동일한 연산 예산에서 더 빠른 수렴
- 데이터 효율성 향상: 데이터가 제한적인 상황에서 효과 극대화
- 연산 비용 절감: 학습 가속이 전체 연산 효율화로 이어짐
채택 현황 (2025-2026)
- Moonshot AI의 Kimi — 선구자적 도입
- DeepSeek-V4 — 표준 세팅에서 더 확장·정교화
- 중국 주요 프론티어 모델 대부분 채택
DeepSeek-V4에서의 변형
DeepSeek은 일반적으로 사용되는 Muon 세팅을 확장하여 “1이 되도록” 더 정확하게 만드는 수정을 가했다. Kimi의 선도적 선택을 기반으로 자체 개선.
관련 개념
- Sparse-Attention — DeepSeek-V4의 다른 핵심 혁신
- mHC-Manifold-Constrained-Hyper-Connections — 함께 도입된 구조 개선