정의
108개의 복잡한 의료 용어 매핑 과제를 통해 최신 AI 모델들의 성능을 객관적으로 비교 평가하는 테스트.
참가 모델
- 상용 최신형: GPT-4.5, Claude 3.5, Gemini 1.5 Pro
- 오픈소스: Llama 3, DeepSeek-R1
- 기존 전문 시스템: BioLAMap
핵심 결과
| 모델 | F1 스코어 | 정밀도 |
|---|---|---|
| GPT-4.5 | 96 | 93.75% |
| Claude 3.5 | ~85 | ~70% |
| BioLAMap | 60대 | 49% |
의의
독보적인 승자: GPT-4.5 → AI 기반 의료 자동화의 현실화 증명