정의

108개의 복잡한 의료 용어 매핑 과제를 통해 최신 AI 모델들의 성능을 객관적으로 비교 평가하는 테스트.

참가 모델

  • 상용 최신형: GPT-4.5, Claude 3.5, Gemini 1.5 Pro
  • 오픈소스: Llama 3, DeepSeek-R1
  • 기존 전문 시스템: BioLAMap

핵심 결과

모델F1 스코어정밀도
GPT-4.59693.75%
Claude 3.5~85~70%
BioLAMap60대49%

의의

독보적인 승자: GPT-4.5 → AI 기반 의료 자동화의 현실화 증명