EP 95. DeepSeek-V4 논문 읽기 — 노정석

2026-04-26 녹화 · 65분 · 출연: 노정석, 김성현, 최승준

SUMMARY

DeepSeek이 R1 이후 약 1년 4개월 만에 발표한 V4는 1.6T 파라미터 규모로 V3(600B)에서 대폭 확대되었으며, Sparse Attention·mHC·Muon Optimizer라는 세 가지 알고리즘적 혁신을 통해 long-context 연산량을 Pro 모델 기준 27%, KV cache 메모리를 10% 수준으로 줄이는 데 성공했다. Pre-training 단계부터 64K 이상 long-context로 학습하는 구조를 채택해 long-context 능력이 post-training 추가 단계 없이 확보된 점이 특히 주목받는다. 논문에서 학습 불안정성과 수개월간의 시행착오를 솔직하게 공개한 점은 DeepSeek이 아키텍처 선도자 포지션을 유지하고 있음을 방증하며, 중국 pre-training 기술이 미국과 동등하거나 일부 앞설 수 있다는 가능성을 보여준다. 동주 GPT-5.5(Spud) 출시 등 AI 업계 전반의 모델 업데이트 주기가 극적으로 짧아지는 트렌드도 함께 논의되었다.


IDEAS

  • DeepSeek-V4는 V3(600B)에서 1.6T 파라미터로 대폭 확대되었으며 소형 모델도 동시 공개되었다
  • Sparse Attention은 KV cache를 4분의 1로 압축 후 Lightning Indexer로 top-k만 선택하는 구조로 long-context 비용을 혁신적으로 낮췄다
  • Sliding Window + Block-sparse + Compressed Sparse Attention 세 가지 컴포넌트 조합이 DeepSeek-V4 attention의 핵심이다
  • from-scratch sparse attention 학습은 중국 여러 랩이 “불가능에 가깝다”고 결론 내린 과제를 DeepSeek이 정면 돌파했다
  • DeepSeek은 초반 1T 토큰은 dense attention으로 학습하고 나머지 30T+ 토큰에서 sparse attention을 학습하는 전략을 택했다
  • top-k 선택 자체가 미분 불가능한 연산이므로 sparse attention 학습의 근본적 난관이 된다
  • mHC(Manifold-Constrained Hyper-Connections)는 residual connection 통로 폭을 저렴하게 넓혀 깊은 모델 학습을 안정화하는 아키텍처 혁신이다
  • Muon Optimizer는 Adam 이후 중국 모델들이 거의 표준으로 채택하는 optimizer로 학습 속도 가속 및 데이터 효율 향상 효과가 있다
  • DeepSeek-V4는 MLA(Multi-head Latent Attention)를 버리고 더 단순한 Multi-Query Attention으로 교체했다
  • Pre-training을 4K→16K(1T tokens) 이후 64K 이상(30T+ tokens)으로 학습해 long-context를 pre-training에 통합했다
  • 다른 모델들이 4K·8K로 pre-training 후 post-training에서 context를 늘리는 것과 대조적이다
  • long-context의 중요성이 문서 길이 차원에서 agent의 작업 복잡성·규모 차원으로 이동하고 있다
  • Anticipatory Routing: 몇 step 이전 학습 weight로 MoE routing을 수행하는 학습 안정화 기법으로 커뮤니티에서 “왜 됐는지 모르겠다”는 반응을 일으켰다
  • expert weight에 MXFP4(4-bit) 양자화를 적용해 메모리와 Blackwell 가속을 동시 확보했다
  • Mega-kernel 최적화로 연산 밀도가 전력 throttling을 일으킬 수준까지 높아졌다
  • NVIDIA 칩과 화웨이 칩을 병행 사용했다는 사실을 논문에서 공개했다
  • 중국의 pre-training 기술이 미국과 동등하거나 일부 앞설 수 있다는 주장이 설득력을 얻고 있다
  • post-training에서 중국이 미국에 아직 뒤처지는 부분이 남아 있다는 언급도 함께 등장했다
  • On-Policy Distillation과 rubric 기반 reward model로 post-training을 구성했으며 최종 모델에는 RL을 사용하지 않은 것으로 보인다
  • 1M 토큰 agentic RL: Docker 컨테이너를 빠르게 띄우는 스토리지 인프라까지 포함한 대규모 시스템을 구축했다
  • DeepSeek-V3가 Kimi 등 중국 많은 모델의 base가 됐듯이 V4도 차세대 중국 모델들의 base가 될 가능성이 크다
  • GPT-5.5(Spud)는 유니콘 벤치마크에서 이미지 생성 모델을 내부에서 먼저 활용하는 방식으로 성능 개선을 이끌어냈다
  • AI 모델 업데이트 주기가 Chrome 브라우저 업데이트처럼 일상화되는 시대로 접어들고 있다
  • DeepSeek 팀의 논문(약 40페이지)은 각 단락이 책 한 권 분량의 내용을 담고 있을 만큼 밀도가 높다

INSIGHTS

  • DeepSeek-V4의 핵심 가치는 단순한 성능 향상이 아니라 “이렇게 하면 된다”는 아키텍처 경로를 세계에 공개한 것이며, 이로 인해 중국 다른 랩들이 재현 난이도를 겪을 수 있다는 역설이 존재한다
  • Long-context가 agent 시대의 핵심 인프라로 부상한 지금, pre-training 단계부터 long-context를 통합한 DeepSeek-V4 접근법은 향후 학습 패러다임의 표준이 될 가능성이 높다
  • 중국 프론티어 랩들이 pre-training에서 미국과 동등해졌다면, 남은 경쟁의 축은 post-training 품질과 연산 투입 규모로 이동한다
  • Sparse attention의 학습 성공은 “안 된다”는 업계 합의를 정면 돌파한 사례로, 이 성공 원인을 해명하는 후속 연구들이 대거 등장할 것이다
  • AI 기술의 commoditization이 빠르게 진행됨에 따라 “모델 성능 비교”보다 “이 기술로 어떤 가치를 만들 것인가”로 산업의 관심축이 이동하고 있다

QUOTES

  • “중국의 프론티어 랩들이 심상치가 않아요. 거의 5개 정도 되는 것 같습니다.”
  • “거의 연금술 수준으로 이렇게 하면 될까 싶을 것들을 다 만들어내더라고요.”
  • “거의 1년 걸린 겁니다. Native Sparse Attention이 작년 초에 나왔고, 씨름을 하면서 나온 구조가 이 구조입니다.”
  • “기술적으로도 경이롭고요. 이런 구조들을 만들어내고 동시에 구현을 해냈다는 것 자체가 놀랍기도 하고요.”
  • “프론티어가 여기에 있네. 항저우에 가야 되겠다라는 생각이 들더라고요.”
  • “Anticipatory Routing이라는 개념은 다들 좀 이상하게 생각합니다. 왜 이렇게까지 해서 이걸 구현해야 했던 이유가 미스터리합니다.”
  • “pre-training에 대해서는 이미 동등한 수준으로 도달했다. 남은 건 post-training에서 동등한 수준으로 도달하는 것이 되는 거고.”
  • “Chrome 브라우저 업데이트처럼 모델 업데이트도 신경 안 쓰는 그즈음이 될 수도 있겠다.”

REFERENCES

  • DeepSeek (org: 중국 AI 연구 기관)
  • DeepSeek-V4 (model: 1.6T MoE, sparse attention 적용 최신 모델)
  • DeepSeek-V3 (model: 600B, V4의 전작)
  • DeepSeek-R1 (model: reasoning 모델, V4의 기점)
  • Native Sparse Attention (paper: DeepSeek 초기 sparse attention 연구, 2025 초)
  • Kimi (model: Moonshot AI, DeepSeek-V3 base 채택)
  • Z.ai / GLM (org: 중국 AI 랩)
  • Hy3 (model: 텐센트, Yao Shunyu 주도)
  • MiMo (model: 샤오미, Luo Fuli 주도)
  • 노정석 (person: 채널 운영자, 진행자)
  • 김성현 (person: 영국 거주 AI 연구자, 게스트)
  • 최승준 (person: 게스트)
  • Luo Fuli (person: DeepSeek → 샤오미 이동)
  • Yao Shunyu (person: DeepSeek → 텐센트 이동)
  • GPT-5.5 / Spud (model: OpenAI, 2026-04 출시)
  • Muon Optimizer (tool: Adam 후속 optimizer)
  • TileLang (tool: kernel 개발용 DSL, DeepSeek 기여)
  • Lightning Indexer (tool: sparse attention top-k 선택 모듈)
  • Comet (paper: ByteDance MoE pipeline parallelism 연구)
  • MXFP4 (tool: 4-bit 양자화 포맷, NVIDIA Blackwell)
  • Anthropic (org: Claude 개발사)
  • Cat Wu (person: Anthropic 제품팀)
  • Ben Mann (person: Anthropic 공동 창립자)
  • Meta Muse Spark (model: Meta LLM)
  • Google Cloud Next (event: 2026-04, 8세대 TPU 발표)
  • Huawei (org: 중국 반도체 대안 공급사)

FACTS

  • DeepSeek-V4 파라미터: 1.6T (V3 600B 대비 약 2.5배 이상)
  • DeepSeek-V3 activated parameter: 약 37B
  • Pre-training 데이터: 32T 토큰
  • Long-context 학습 구성: 4K→16K(1T 토큰) → 64K 이상(30T+ 토큰)
  • Sparse Attention 효과(Pro 모델 기준): 연산량 27%, KV cache 메모리 10% (V3 대비)
  • V4 개발 기간: R1 이후 약 1년 4개월
  • Dense attention warm-up: 첫 1T 토큰에만 적용
  • Expert weight 양자화: MXFP4(4-bit)
  • 비교 대상: Claude Opus 4.6, GPT-5.4, Gemini 3.1, Kimi K2.6
  • 논문 분량: 약 40페이지
  • DeepSeek 75% 할인 이벤트: 10일간 진행
  • GPT-5.5(Spud): 2026년 4월 마지막 주 금요일 출시
  • Google Cloud Next 2026: 8세대 training·inference 모드 TPU 발표