AI Medical Benchmark (의료 AI 벤치마크)

정의

108개의 복잡한 의료 용어 매핑 과제를 통해 최신 AI 모델들의 성능을 객관적으로 비교 평가하는 테스트.

참가 모델

상용 최신형: GPT-4.5, Claude 3.5, Gemini 1.5 Pro
오픈소스: Llama 3, DeepSeek-R1
기존 전문 시스템: BioLAMap

핵심 결과

모델	F1 스코어	정밀도
GPT-4.5	96	93.75%
Claude 3.5	~85	~70%
BioLAMap	60대	49%

의의

독보적인 승자: GPT-4.5 → AI 기반 의료 자동화의 현실화 증명