Definition
고전적 평가 지표(Classical Metrics)는 단어 단위 또는 구조 단위의 정확한 일치를 기준으로 AI 시스템 답변을 평가하는 옛날 방식이다. RAG-Evaluation의 구식 접근법.
Main Types
1. BLEU Score
특징:
├─ 원본과 정확히 같은 단어, 표현 요구
├─ 토시 하나 안 틀리고 일치해야 함
├─ 매우 엄격함 (깐깐한 선생님 같음)
└─ 번역 평가에서 원래 사용됨
한계:
├─ "그녀가 사과를 먹었다"
├─ "한 여성이 그 과일을 섭취했다"
├─ 결과: 0점 (의미 동일하지만)
└─ 의미 무시
2. ROUGE Score
특징:
├─ BLEU보다 좀 더 유연함
├─ 공통된 구조나 단어 찾음
├─ 약간의 변동 허용
└─ 여전히 형태 기반
한계:
├─ 본질은 여전히 "단어 맞추기"
├─ 의미 이해 없음
└─ 정교한 평가 불가
The Fundamental Problem
"완벽한 답변이 영점을 받는다"
이유:
├─ 의미와 표현을 구분하지 못함
├─ 글자 형태만 비교
├─ 의미적 동등성 인식 불가
└─ 실제 성능과 괴리
Why They Fail
Missing Nuance
Good Answer expressed differently:
├─ 의미: 완벽 ✅
├─ 표현: 다름 ✅
└─ BLEU Score: 0 ❌
No Semantic Understanding
Classical Metrics = Word Matching Game
└─ 언어의 유연성, 동의어, 다양한 표현 무시
Historical Context
원래 목적: 기계 번역 평가 (작동했으나, RAG/LLM 평가에는 부적절)
Why Still Used?
- 빠른 계산 (LLM 호출 불필요)
- 완전 자동화 가능
- 역사적 기준과의 비교
Better Alternatives
References
- RAG-Evaluation — 평가 방식 총론
- Semantic Evaluation — 현대적 대안