Definition

의미적 평가(Semantic Evaluation)는 AI 시스템의 답변을 단어 형태가 아닌 의미와 문맥 기반으로 평가하는 현대적 방식이다. RAG-Evaluation의 진화된 접근법.

Core Principle

"글자가 아닌 의미를 본다"

Classical:
"그녀가 사과를 먹었다" ≠ "한 여성이 과일을 섭취했다" (0점)

Semantic:
"그녀가 사과를 먹었다" ≈ "한 여성이 과일을 섭취했다" (100점)

Methods

1. BERTScore (임베딩 기반)

원리: BERT 임베딩 모델로 의미 유사도 계산
특징: "사과" ≈ "과일" 인식 가능
장점: 빠르고 정확함

2. LLM-as-Judge (의미 판단자)

원리: 고급 LLM을 심판으로 사용
특징: 4가지 차원의 종합 평가
장점: 가장 정교하고 신뢰도 높음

Why It Matters

Problem It Solves

Classical metrics의 근본 문제:
└─ 의미는 같은데 표현 다르면 0점
   
Semantic evaluation:
└─ 의미가 같으면 100점 (정확한 평가)

Practical Impact

RAG System Improvement:
├─ Before: "이 시스템이 좋나?" → 불분명
├─ After: "이 시스템이 좋나?" → 명확 (4가지 기준 분석)
└─ 신뢰할 수 있는 개선이 가능해짐

The Evaluation Journey

Evolution of RAG Evaluation:

1. Word Counting Era
   └─ BLEU, ROUGE (단어 수 기반)
   └─ 문제: 의미 무시

2. Embedding Era
   └─ BERTScore (의미 유사도)
   └─ 진전: 의미 이해하기 시작

3. LLM Judge Era (현재)
   └─ [[wiki/concepts/LLM-as-Judge]] (의미 판단)
   └─ 완성: 인간 같은 이해

Quality Dimensions Evaluated

4 Key Aspects

  1. Relevance: 질문과 관련성
  2. Faithfulness: 원문 기반 여부
  3. Usefulness: 사용자 도움 여부
  4. Accuracy: 정확성

References