EP 96. LLM 추론 인프라와 토큰 경제학
채널: 노정석 | 출연: 노정석, 최승준 원본 영상: https://www.youtube.com/watch?v=V_Z-ydQJ54c 참고 대본: https://aifrontier.kr/ko/episodes/ep96 녹화일: 2026-05-04 (연휴 공부 결과물)
Dwarkesh-Patel의 새 팟캐스트 에피소드(Reiner-Pope 출연)를 분석하며 LLM 추론 인프라와 토큰 경제학을 깊이 탐구한다. Reiner Pope는 Google TPU 출신 창업자로, 칠판 판서 형식의 강연에서 t_compute·t_memory 수식과 Roofline-분석을 통해 서빙 인프라의 경제학을 설명한다.
IDEAS
- 현재는 모델 학습(training)보다 추론(inference)과 서빙 인프라가 AI 경쟁의 핵심이 됐다.
- Claude Code, Codex 같은 agentic 워크로드는 매우 긴 context, 지속적 context 변경, reasoning token으로 inference 부하가 급증했다.
- GPU 칩 + HBM 메모리가 한 쌍 → 슈퍼칩 → 랙(NVL72) → 데이터센터 AI 팩토리로 계층화된다.
- NVIDIA Blackwell NVL72는 72개 GPU를 NVLink/NVSwitch로 하나의 랙에 묶어 ~20TB HBM을 단일 메모리 풀처럼 활용한다.
- H100(80GB HBM) → GB200/GB300(192-288GB HBM): GPU당 메모리가 2-3배 증가, 대형 모델 서빙 가능 지평이 크게 넓어졌다.
- LLM inference의 총 지연 시간:
T = max(t_compute, t_memory)— 둘 중 더 오래 걸리는 쪽에 묶인다. t_compute = (B × N_active) / FLOPs/s— 배치 크기와 활성화된 파라미터 수에 선형 비례.t_memory = (N_total + B × L × bytes) / bandwidth— 전체 파라미터 로딩 + KV 캐시 로딩.- FLOPs / 메모리 대역폭 비율은 하드웨어 세대가 바뀌어도 FP4 기준 약 300 수준을 유지한다.
- 최적 배치 크기
B* = (FLOPs/bandwidth) × sparsity⁻¹ ≈ 300 / sparsity. - DeepSeek V3(sparsity 1/8 수준)에서 최적 배치 ≈ 2400 — 한 사이클에 2400명 동시 서빙 가능.
- HBM drain time = 용량 / 대역폭 ≈ 20ms → 이것이 inference 한 사이클(열차 출발 간격)의 기준.
- 배치가 작을 때 → memory-bound; 커질 때 → compute-bound. 최적점에서 MFU가 최대화된다.
- Prefill: 입력 토큰 전체를 병렬 처리 → KV 캐시 생성. Decode: 한 번에 토큰 1개씩 자기회귀 생성.
- Decode 배치에서 각 유저는 단 1개 토큰만 입력하므로, 2400명을 동시에 태울 수 있다.
- PagedAttention(vLLM의 혁신): 포인터 기반 KV 캐시 관리로 메모리 낭비를 극적으로 줄였다.
- Chunked prefill: 긴 입력(50K 토큰)도 잘게 쪼개어 decode 유저와 섞어서 배치를 채운다.
- SGLang, vLLM의 서빙 최적화(스케줄러·KV 캐시 orchestration)는 프론티어 랩의 핵심 경쟁 moat다.
- Context length > 200K → memory-bound 전환 → 서빙 가능 유저 수 급감 → 가격 티어 인상.
- KV 캐시 계층: HBM → CPU DRAM → Flash → HDD 순으로 eviction → cache 가격 체계 형성.
- API 가격(input/output/cache token)은 추론 인프라의 원가 구조를 역산(reverse engineering)하는 창구다.
- Sparsity를 높이면(MoE expert 수↑, activation 비율↓) 같은 하드웨어에서 더 많은 유저를 서빙할 수 있다.
- 모델 아키텍처(MoE, sparse attention, MLA 등)는 하드웨어 구조에 맞게 진화하고 있다. “AI 모델은 하드웨어의 그림자다.”
- NVL72 출시(2024년 말)로 5T~10T 규모 모델 서빙이 현실화됐다; Claude 4.5/4.6, Mythos(추정 10T) 등이 이에 해당한다.
INSIGHTS
- t_compute와 t_memory의 균형점이 GPU 사용 효율(MFU)을 결정한다. 이 균형을 최적화하는 것이 vLLM·SGLang 같은 서빙 프레임워크의 존재 이유다.
- Context 200K 경계는 임의적 설정이 아니다. 해당 지점에서 KV 캐시 로딩이 compute보다 지배적이 되어 서빙 비용이 질적으로 달라지기 때문에 가격 티어가 나뉜다.
- API 가격표는 인프라 원가 구조의 역산 가능한 신호다. Input < Output 가격 차이, 캐시 가격, context tier 경계 — 모두 t_compute/t_memory 균형의 반영이다.
- 프론티어 랩의 진짜 해자(moat)는 모델이 아니라 서빙 인프라 엔지니어링이다. 같은 하드웨어에서 더 많은 유저를 더 싸게 서빙하는 기술이 수익성을 결정한다.
- 하드웨어 출시 시기 → 모델 아키텍처 → API 가격 변화는 인과 사슬이다. NVL72 출시가 5T 모델 서빙을 가능하게 했고, 이것이 Claude 4.x 세대의 성능 도약을 설명한다.
- DeepSeek의 sparsity 혁신은 단순한 효율화가 아니다. Roofline 관점에서 보면 최적 배치 크기를 높여 같은 랙에서 서빙 가능한 유저 수를 폭발적으로 늘린다.
QUOTES
“AI 모델은 하드웨어의 그림자다.”
“이 Blackwell NVL72 GPU 간 통신이 예전에는 8개까지만 됐는데 지금은 72개가 됐고…”
“결국은 어떤 단위 시간당 메모리나 compute나 이걸 다 maximize해야 되는 거죠.”
“프론티어 랩들의 진짜 어떤 그들의 자산, moat라고 볼 수 있는 것들은 이런 엔지니어링 인프라 능력인 것 같아요.”
“Context length가 200k가 넘어가면 그걸 처리하기 위해서 유저 숫자를 현저하게 적게 받아야 하는 그런 GPU 클러스터가 있는 거죠.”
“API 가격으로 내세우는 것들을 보면 걔네들이 내부적으로 가지고 있는 일종의 token economics가 어떤 식으로 구성되어 있다는 걸 보여준다.”
“vLLM이 만들었던 PagedAttention이라는 혁신… 마치 포인터로 KV cache들이 어디에 있는지 전부 찍어 놓는 거예요.”
REFERENCES
- Dwarkesh Patel (type: person) — 팟캐스트 호스트, 이번 에피소드 원출처 콘텐츠 제작자
- Reiner Pope (type: person) — Google TPU 출신 창업자, 칠판 강연으로 roofline analysis 설명
- Jensen Huang (type: person) — NVIDIA CEO, GTC 키노트에서 하드웨어 설명
- 노정석 (type: person) — AI Frontier 팟캐스트 호스트
- 최승준 (type: person) — AI Frontier 공동 호스트, 미디어 아티스트
- V4 (type: model) — MoE sparsity 혁신 사례
- NVIDIA GB200/GB300 (type: hardware) — 최신 GPU, 192-288GB HBM
- NVIDIA NVL72 (type: hardware) — 72 GPU 연결 랙 단위
- vLLM (type: tool) — PagedAttention 기반 LLM 서빙 프레임워크
- SGLang (type: tool) — LLM 서빙 최적화 프레임워크
- HBM (High Bandwidth Memory) (type: concept) — GPU 옆에 붙는 고대역폭 메모리
- NVLink/NVSwitch (type: concept) — NVIDIA GPU 간 고속 통신 인터페이스
- MoE (Mixture of Experts) (type: concept) — sparse 파라미터 활성화 기법
- PagedAttention (type: concept) — vLLM의 KV 캐시 관리 혁신
FACTS
- NVIDIA GB300 기준 HBM 용량: 288GB, 대역폭: ~20TB/s
- NVL72 랙 1대: GPU 72개, HBM ~20TB, CPU DRAM ~20TB, 합계 ~40TB
- HBM drain time: 288GB / 20TB/s ≈ 14~20ms → inference 사이클 기준
- FLOPs / 메모리 대역폭 비율: FP4 기준 약 300 (하드웨어 세대 무관)
- DeepSeek V3 sparsity: 384개 expert 중 약 6개 active (≈1/64 → 실제는 ~1/8 수준으로 계산)
- 최적 배치 추정치: B* ≈ 300 × 8 = 2400 (DeepSeek 기준)
- Gemini context 200K 초과 가격 티어: memory-bound 전환점의 경제적 반영
- H100: 80GB HBM / GPU | H200: 100GB / GPU | GB200: 192GB / GPU | GB300: 288GB / GPU
- NVL72 이전: GPU 간 NVLink 최대 8개 연결; NVL72 이후: 72개 단일 랙
- Claude Code + agentic 워크로드: context 수십 K~수백 K + reasoning token → 추론 비용 폭발
- 5T 파라미터 모델, FP8 기준: 모델 가중치만 ~5TB HBM 필요
HABITS
- 어려운 기술 내용을 팟캐스트 3일 공부 후 대화 형식으로 정리·복습하면 이해가 깊어진다.
- Dwarkesh Patel: 인터뷰이 한 명당 약 2주간 사전 공부; flashcard로 핵심 수식 암기.
- AI(Claude, ChatGPT)를 직접 튜터로 활용해 원 강연의 내용을 심화 학습.
- Jensen Huang GTC 키노트를 먼저 보고, 하드웨어 수식 이해 후 다시 보면 새로운 맥락이 보인다.
RECOMMENDATIONS
- LLM API 비용 최적화를 위해 context 200K 경계를 의식적으로 관리하라 (가격 tier 분기점).
- Claude Code 장시간 작업 시 자리를 비우지 말 것: KV 캐시가 HBM → DRAM → Flash 순으로 eviction되어 재prefill 비용 발생.
- 프론티어 모델 성능을 평가할 때 하드웨어 출시 시기를 함께 보라 (NVL72 → 5T 모델 가능).
- Dwarkesh Patel × Reiner Pope 원본 강연을 직접 시청 권장 (roofline analysis 후반부 포함).
- DeepSeek V4 API 활용 시 input token 비용이 극히 저렴 → 긴 context 작업의 경제적 대안.