Ragas

Summary

LLM 애플리케이션 평가 프레임워크. RAG, 에이전트, 일반 LLM 시스템의 성능을 객관적 메트릭으로 측정.

LLM 애플리케이션 평가 프레임워크. RAG, 에이전트, 일반 LLM 시스템의 성능을 객관적 메트릭으로 측정.

개요

Ragas는 “Vibe check에서 data-driven으로”라는 철학으로 설계되었다. LLM 출력의 자유형식 텍스트를 평가하는 것은 어렵지만, Ragas는 LLM 자신을 평가자로 활용해 이를 체계화한다.

주요 특징

  • Pre-built Metrics: Faithfulness(정확성), Answer Relevancy(관련성), Context Recall(검색 완전성), Context Precision(검색 정확도) 등
  • Customizable: 도메인 특화 메트릭을 간단한 데코레이터로 정의 가능
  • Framework Integration: LangChain, LlamaIndex 직접 지원
  • Experiments-First: 수정 → 평가 → 분석 사이클 강조

주요 사실

  • 라이선스: MIT (오픈소스)
  • GitHub: ⭐ 7k+ (2026-04 기준)
  • 지원 언어: Python
  • 평가 대상: RAG, Agent, SQL Query, General LLM

평가 메트릭 타입

메트릭대상의미
FaithfulnessGeneration답변이 검색 문서의 내용과 일치하는가? (환각 탐지)
Answer RelevancyGeneration답변이 질문에 직접 응답하는가?
Context RecallRetrieval검색된 문서가 모든 필요한 정보를 포함하는가?
Context PrecisionRetrieval검색된 문서가 모두 질문과 관련 있는가? (노이즈 제거)

관련 개념

관련 엔티티

소스