BERTScore

Definition

BERTScore는 고급 임베딩 모델(BERT)을 활용하여 두 문장의 의미적 유사도를 측정하는 평가 지표이다. 글자 단위 일치가 아닌 의미적 유사성에 초점을 맞춘다.

How It Works

Traditional Metrics:
"그녀가 사과를 먹었다" vs "한 여성이 그 과일을 섭취했다"
├─ Word match: 0/5 words match
└─ Result: BLEU = 0, but semantically identical

BERTScore:
"그녀가 사과를 먹었다" vs "한 여성이 그 과일을 섭취했다"
├─ Embedding comparison: "그녀"~"여성" (similar), "사과"~"과일" (similar), "먹었다"~"섭취했다" (similar)
├─ Semantic alignment: 전체 의미 일치
└─ Result: Score ≈ 1.0 (nearly perfect) ✅

Key Advantages

Semantic Understanding: 단어 형태 아닌 의미 이해
Paraphrase Recognition: 다른 표현의 같은 의미 인식
Nuanced Evaluation: 미묘한 의미 차이 포착

Limitations

Classical metrics보다는 나음, 하지만 여전히:
- 진정한 이해 vs 통계적 유사도
- 특정 도메인에서 편차 가능

References

RAG-Evaluation — 의미 기반 평가의 일부
LLM-as-Judge — 더 고급 평가 방식

JYP Garden

탐색기

BERTScore

Definition

How It Works

Key Advantages

Limitations

References

그래프 뷰

목차