PagedAttention

OS의 가상 메모리·페이징 개념을 LLM KV 캐시 관리에 적용한 메모리 관리 알고리즘. vLLM의 핵심 혁신으로, GPU 메모리 단편화를 줄여 배치 처리량을 대폭 높인다.

설명

LLM 추론 시 Attention 연산의 Key-Value(KV) 캐시는 시퀀스 길이에 따라 동적으로 커진다. 기존 방식은 KV 캐시를 연속 메모리 블록으로 사전 할당해 내부·외부 단편화가 심했다.

PagedAttention은 KV 캐시를 고정 크기 블록(page)으로 나누어 비연속 메모리에 분산 저장한다. OS 페이지 테이블처럼 논리 블록 → 물리 블록 매핑을 관리해 필요한 만큼만 메모리를 사용한다.

효과:

  • GPU 메모리 낭비 최소화 → 더 많은 요청을 동시 배치 처리 가능
  • 연속 배치(continuous batching)와 결합해 처리량(throughput) 극대화
  • 요청 간 KV 캐시 공유(prefix caching)도 가능

실전 적용

  • vLLM — PagedAttention을 핵심 엔진으로 채택한 LLM 서빙 프레임워크

소스