mHC: Manifold-Constrained Hyper-Connections
딥러닝의 핵심 구조인 residual connection을 개선하는 아키텍처. DeepSeek-V4의 3대 알고리즘 혁신 중 하나.
직관적 이해
- Residual connection: 레이어를 통과하는 “지름길 통로” — 깊은 모델 학습을 가능하게 함
- 문제: 통로 폭이 제한되어 있어 이후 레이어까지 정보 전달 시 제약 발생
- Hyper-Connections (HC): 통로 폭을 넓혀 제약을 완화 → 저렴하게 구현
- mHC: HC를 manifold 제약으로 안정화 (학습 안정성 개선)
요약
Residual Connection → HC (통로 폭 확장, 저렴한 구현) → mHC (안정화)
DeepSeek-V4에서의 위치
- 3대 혁신: mHC + Sparse-Attention + Muon-optimizer
- sparse attention과 함께 모델 표현력 및 학습 안정성에 기여