vLLM 공식 문서 — Welcome to vLLM

Key Insight

UC Berkeley Sky Computing Lab에서 시작된 LLM 추론 엔진. PagedAttention·연속 배치로 처리량을 극대화하며, 200+ 모델 아키텍처와 10+ 하드웨어 플랫폼을 단일 엔진으로 지원한다.

출처: https://docs.vllm.ai/ 타입: 공식 문서 작성자: vLLM Community (2000+ contributors) 유효일: 2026-05-08

핵심 Takeaway

  • PagedAttention으로 KV 캐시를 블록 단위 관리 → GPU 메모리 단편화 최소화
  • 연속 배치(continuous batching)로 동일 하드웨어에서 최대 23x 처리량 향상 (Anyscale 측정, 2026-05-08 기준)
  • 200+ HuggingFace 모델 아키텍처 지원 — Decoder-only, MoE, 멀티모달, 임베딩, Reward 모델 포함
  • OpenAI 호환 API + Anthropic Messages API + gRPC 동시 지원
  • NVIDIA/AMD GPU, x86/ARM/PowerPC CPU, Google TPU, Intel Gaudi, Apple Silicon 등 이기종 하드웨어
  • arXiv 논문 2309.06180 (SOSP 2023)에서 학술 검증

상세 요약

속도 최적화 기법

  • PagedAttention: KV 캐시 비연속 블록 관리로 메모리 낭비 제거
  • Chunked Prefill / Prefix Caching: 프리필 단계 분할 + KV 캐시 재사용
  • Speculative Decoding: n-gram, suffix, EAGLE, DFlash 방식 지원
  • Attention 커널: FlashAttention, FlashInfer, TRTLLM-GEN, FlashMLA, Triton
  • GEMM/MoE 커널: CUTLASS, TRTLLM-GEN, CuTeDSL 기반 최적화
  • torch.compile 기반 자동 커널 생성 및 그래프 변환

양자화 지원 (2026-05-08 기준)

FP8, MXFP8/MXFP4, NVFP4, INT8, INT4, GPTQ/AWQ, GGUF, compressed-tensors, ModelOpt, TorchAO

분산 추론

텐서 병렬(Tensor) / 파이프라인 병렬(Pipeline) / 데이터 병렬(Data) / 전문가 병렬(Expert) / 컨텍스트 병렬(Context) 모두 지원. Disaggregated prefill-decode-encode도 지원.

지원 모델 유형

유형예시
Decoder-only LLMLlama, Qwen, [[wiki/entities/gemma-4
MoE LLMMixtral, DeepSeek-V3, Qwen-MoE
Hybrid (Attention + SSM)Mamba, Qwen3.5
멀티모달LLaVA, Qwen-VL, Pixtral
임베딩·검색E5-Mistral, GTE, ColBERT
Reward·분류Qwen-Math

편의 기능

  • Multi-LoRA 효율 지원 (dense + MoE 레이어)
  • Structured output 생성 (xgrammar, guidance)
  • Tool calling + Reasoning parsers
  • 스트리밍 출력

연결되는 노트

  • vLLM — 이 문서의 주체 엔진
  • PagedAttention — 핵심 메모리 관리 알고리즘
  • gemma-4 — 지원 모델 중 하나