LiteParse

Summary

LlamaIndex의 오픈소스 PDF 텍스트 추출 도구. AI 모델 불사용, Spatial text parsing 휴리스틱으로 멀티컬럼 레이아웃을 선형 텍스트로 복원. Node.js CLI 설계이나 브라우저 버전(simon-willison 포팅)도 존재.

LlamaIndex의 오픈소스 PDF 텍스트 추출 도구. AI 모델 불사용, Spatial text parsing 휴리스틱으로 멀티컬럼 레이아웃을 선형 텍스트로 복원. Node.js CLI 설계이나 브라우저 버전(simon-willison 포팅)도 존재.

개요

LiteParse는 LlamaIndex가 제작한 Node.js CLI 도구로, 에이전트용 PDF 파싱 도구로 설계됐다. PDF.js를 기반으로 텍스트 추출하고, 이미지 기반 PDF는 Tesseract.js(또는 다른 플러그 가능한 OCR 엔진)로 폴백한다.

다른 PDF 추출 도구와의 차별점은 Spatial text parsing: PDF 파일 내 텍스트는 논리적 읽기 순서와 다르게 저장되는 경우가 많다 (특히 멀티컬럼, 표, 사이드바). LiteParse는 영리한 휴리스틱으로 컬럼 구조를 감지하고 텍스트를 자연스러운 선형 흐름으로 재구성한다.

npm i -g @llamaindex/liteparse
lit parse document.pdf

주요 사실

관련 개념

  • vibe-coding — 브라우저 버전이 Claude Code 순수 vibe coding 실증 사례
  • harness-engineering — LiteParse 에이전트용 CLI 설계가 harness tool 패턴과 맞닿음

관련 엔티티

소스