EP 95. DeepSeek-V4 논문 읽기 — 노정석

2026-04-26 녹화 · 65분 · 출연: 노정석, 김성현, 최승준

SUMMARY

DeepSeek이 R1 이후 약 1년 4개월 만에 발표한 V4는 1.6T 파라미터 규모로 V3(600B)에서 대폭 확대되었으며, Sparse Attention·mHC·Muon Optimizer라는 세 가지 알고리즘적 혁신을 통해 long-context 연산량을 Pro 모델 기준 27%, KV cache 메모리를 10% 수준으로 줄이는 데 성공했다. Pre-training 단계부터 64K 이상 long-context로 학습하는 구조를 채택해 long-context 능력이 post-training 추가 단계 없이 확보된 점이 특히 주목받는다. 논문에서 학습 불안정성과 수개월간의 시행착오를 솔직하게 공개한 점은 DeepSeek이 아키텍처 선도자 포지션을 유지하고 있음을 방증하며, 중국 pre-training 기술이 미국과 동등하거나 일부 앞설 수 있다는 가능성을 보여준다. 동주 GPT-5.5(Spud) 출시 등 AI 업계 전반의 모델 업데이트 주기가 극적으로 짧아지는 트렌드도 함께 논의되었다.

IDEAS

DeepSeek-V4는 V3(600B)에서 1.6T 파라미터로 대폭 확대되었으며 소형 모델도 동시 공개되었다
Sparse Attention은 KV cache를 4분의 1로 압축 후 Lightning Indexer로 top-k만 선택하는 구조로 long-context 비용을 혁신적으로 낮췄다
Sliding Window + Block-sparse + Compressed Sparse Attention 세 가지 컴포넌트 조합이 DeepSeek-V4 attention의 핵심이다
from-scratch sparse attention 학습은 중국 여러 랩이 “불가능에 가깝다”고 결론 내린 과제를 DeepSeek이 정면 돌파했다
DeepSeek은 초반 1T 토큰은 dense attention으로 학습하고 나머지 30T+ 토큰에서 sparse attention을 학습하는 전략을 택했다
top-k 선택 자체가 미분 불가능한 연산이므로 sparse attention 학습의 근본적 난관이 된다
mHC(Manifold-Constrained Hyper-Connections)는 residual connection 통로 폭을 저렴하게 넓혀 깊은 모델 학습을 안정화하는 아키텍처 혁신이다
Muon Optimizer는 Adam 이후 중국 모델들이 거의 표준으로 채택하는 optimizer로 학습 속도 가속 및 데이터 효율 향상 효과가 있다
DeepSeek-V4는 MLA(Multi-head Latent Attention)를 버리고 더 단순한 Multi-Query Attention으로 교체했다
Pre-training을 4K→16K(1T tokens) 이후 64K 이상(30T+ tokens)으로 학습해 long-context를 pre-training에 통합했다
다른 모델들이 4K·8K로 pre-training 후 post-training에서 context를 늘리는 것과 대조적이다
long-context의 중요성이 문서 길이 차원에서 agent의 작업 복잡성·규모 차원으로 이동하고 있다
Anticipatory Routing: 몇 step 이전 학습 weight로 MoE routing을 수행하는 학습 안정화 기법으로 커뮤니티에서 “왜 됐는지 모르겠다”는 반응을 일으켰다
expert weight에 MXFP4(4-bit) 양자화를 적용해 메모리와 Blackwell 가속을 동시 확보했다
Mega-kernel 최적화로 연산 밀도가 전력 throttling을 일으킬 수준까지 높아졌다
NVIDIA 칩과 화웨이 칩을 병행 사용했다는 사실을 논문에서 공개했다
중국의 pre-training 기술이 미국과 동등하거나 일부 앞설 수 있다는 주장이 설득력을 얻고 있다
post-training에서 중국이 미국에 아직 뒤처지는 부분이 남아 있다는 언급도 함께 등장했다
On-Policy Distillation과 rubric 기반 reward model로 post-training을 구성했으며 최종 모델에는 RL을 사용하지 않은 것으로 보인다
1M 토큰 agentic RL: Docker 컨테이너를 빠르게 띄우는 스토리지 인프라까지 포함한 대규모 시스템을 구축했다
DeepSeek-V3가 Kimi 등 중국 많은 모델의 base가 됐듯이 V4도 차세대 중국 모델들의 base가 될 가능성이 크다
GPT-5.5(Spud)는 유니콘 벤치마크에서 이미지 생성 모델을 내부에서 먼저 활용하는 방식으로 성능 개선을 이끌어냈다
AI 모델 업데이트 주기가 Chrome 브라우저 업데이트처럼 일상화되는 시대로 접어들고 있다
DeepSeek 팀의 논문(약 40페이지)은 각 단락이 책 한 권 분량의 내용을 담고 있을 만큼 밀도가 높다

INSIGHTS

DeepSeek-V4의 핵심 가치는 단순한 성능 향상이 아니라 “이렇게 하면 된다”는 아키텍처 경로를 세계에 공개한 것이며, 이로 인해 중국 다른 랩들이 재현 난이도를 겪을 수 있다는 역설이 존재한다
Long-context가 agent 시대의 핵심 인프라로 부상한 지금, pre-training 단계부터 long-context를 통합한 DeepSeek-V4 접근법은 향후 학습 패러다임의 표준이 될 가능성이 높다
중국 프론티어 랩들이 pre-training에서 미국과 동등해졌다면, 남은 경쟁의 축은 post-training 품질과 연산 투입 규모로 이동한다
Sparse attention의 학습 성공은 “안 된다”는 업계 합의를 정면 돌파한 사례로, 이 성공 원인을 해명하는 후속 연구들이 대거 등장할 것이다
AI 기술의 commoditization이 빠르게 진행됨에 따라 “모델 성능 비교”보다 “이 기술로 어떤 가치를 만들 것인가”로 산업의 관심축이 이동하고 있다

QUOTES

“중국의 프론티어 랩들이 심상치가 않아요. 거의 5개 정도 되는 것 같습니다.”
“거의 연금술 수준으로 이렇게 하면 될까 싶을 것들을 다 만들어내더라고요.”
“거의 1년 걸린 겁니다. Native Sparse Attention이 작년 초에 나왔고, 씨름을 하면서 나온 구조가 이 구조입니다.”
“기술적으로도 경이롭고요. 이런 구조들을 만들어내고 동시에 구현을 해냈다는 것 자체가 놀랍기도 하고요.”
“프론티어가 여기에 있네. 항저우에 가야 되겠다라는 생각이 들더라고요.”
“Anticipatory Routing이라는 개념은 다들 좀 이상하게 생각합니다. 왜 이렇게까지 해서 이걸 구현해야 했던 이유가 미스터리합니다.”
“pre-training에 대해서는 이미 동등한 수준으로 도달했다. 남은 건 post-training에서 동등한 수준으로 도달하는 것이 되는 거고.”
“Chrome 브라우저 업데이트처럼 모델 업데이트도 신경 안 쓰는 그즈음이 될 수도 있겠다.”

REFERENCES

DeepSeek (org: 중국 AI 연구 기관)
DeepSeek-V4 (model: 1.6T MoE, sparse attention 적용 최신 모델)
DeepSeek-V3 (model: 600B, V4의 전작)
DeepSeek-R1 (model: reasoning 모델, V4의 기점)
Native Sparse Attention (paper: DeepSeek 초기 sparse attention 연구, 2025 초)
Kimi (model: Moonshot AI, DeepSeek-V3 base 채택)
Z.ai / GLM (org: 중국 AI 랩)
Hy3 (model: 텐센트, Yao Shunyu 주도)
MiMo (model: 샤오미, Luo Fuli 주도)
노정석 (person: 채널 운영자, 진행자)
김성현 (person: 영국 거주 AI 연구자, 게스트)
최승준 (person: 게스트)
Luo Fuli (person: DeepSeek → 샤오미 이동)
Yao Shunyu (person: DeepSeek → 텐센트 이동)
GPT-5.5 / Spud (model: OpenAI, 2026-04 출시)
Muon Optimizer (tool: Adam 후속 optimizer)
TileLang (tool: kernel 개발용 DSL, DeepSeek 기여)
Lightning Indexer (tool: sparse attention top-k 선택 모듈)
Comet (paper: ByteDance MoE pipeline parallelism 연구)
MXFP4 (tool: 4-bit 양자화 포맷, NVIDIA Blackwell)
Anthropic (org: Claude 개발사)
Cat Wu (person: Anthropic 제품팀)
Ben Mann (person: Anthropic 공동 창립자)
Meta Muse Spark (model: Meta LLM)
Google Cloud Next (event: 2026-04, 8세대 TPU 발표)
Huawei (org: 중국 반도체 대안 공급사)

FACTS

DeepSeek-V4 파라미터: 1.6T (V3 600B 대비 약 2.5배 이상)
DeepSeek-V3 activated parameter: 약 37B
Pre-training 데이터: 32T 토큰
Long-context 학습 구성: 4K→16K(1T 토큰) → 64K 이상(30T+ 토큰)
Sparse Attention 효과(Pro 모델 기준): 연산량 27%, KV cache 메모리 10% (V3 대비)
V4 개발 기간: R1 이후 약 1년 4개월
Dense attention warm-up: 첫 1T 토큰에만 적용
Expert weight 양자화: MXFP4(4-bit)
비교 대상: Claude Opus 4.6, GPT-5.4, Gemini 3.1, Kimi K2.6
논문 분량: 약 40페이지
DeepSeek 75% 할인 이벤트: 10일간 진행
GPT-5.5(Spud): 2026년 4월 마지막 주 금요일 출시
Google Cloud Next 2026: 8세대 training·inference 모드 TPU 발표

JYP Garden

탐색기

EP 95. DeepSeek-V4 논문 읽기 — 노정석

EP 95. DeepSeek-V4 논문 읽기 — 노정석

SUMMARY

IDEAS

INSIGHTS

QUOTES

REFERENCES

FACTS

그래프 뷰

목차