Definition
BERTScore는 고급 임베딩 모델(BERT)을 활용하여 두 문장의 의미적 유사도를 측정하는 평가 지표이다. 글자 단위 일치가 아닌 의미적 유사성에 초점을 맞춘다.
How It Works
Traditional Metrics:
"그녀가 사과를 먹었다" vs "한 여성이 그 과일을 섭취했다"
├─ Word match: 0/5 words match
└─ Result: BLEU = 0, but semantically identical
BERTScore:
"그녀가 사과를 먹었다" vs "한 여성이 그 과일을 섭취했다"
├─ Embedding comparison: "그녀"~"여성" (similar), "사과"~"과일" (similar), "먹었다"~"섭취했다" (similar)
├─ Semantic alignment: 전체 의미 일치
└─ Result: Score ≈ 1.0 (nearly perfect) ✅
Key Advantages
- Semantic Understanding: 단어 형태 아닌 의미 이해
- Paraphrase Recognition: 다른 표현의 같은 의미 인식
- Nuanced Evaluation: 미묘한 의미 차이 포착
Limitations
- Classical metrics보다는 나음, 하지만 여전히:
- 진정한 이해 vs 통계적 유사도
- 특정 도메인에서 편차 가능
References
- RAG-Evaluation — 의미 기반 평가의 일부
- LLM-as-Judge — 더 고급 평가 방식