Definition
의미적 데이터 마이닝(Semantic Data Mining)은 온톨로지가 기계 학습 모델에게 데이터의 풍부한 의미와 맥락을 제공하여, 더 똑똑하게 학습하도록 안내하는 방식이다. 온톨로지가 ML의 길잡이가 되는 역할.
The Metaphor: Wings for Data
Ontology giving wings to data:
├─ 단순한 "사과" 단어 → 풍부한 의미 추가
├─ "과일의 한 종류"
├─ "보통 빨갛고 동근 모양"
├─ "달콤한 맛"
└─ → ML이 훨씬 더 똑똑하게 학습
How It Works
Traditional ML:
"사과" 데이터 → 그냥 학습 → 성능 제한
Semantic Data Mining:
"사과" 데이터
+ 온톨로지 의미 (과일, 식물, 영양식품...)
+ 관계 정보 (원산지, 종류, 특성...)
→ 풍부한 맥락으로 학습 → 훨씬 좋은 성능
Key Benefits
1. Better Learning Foundation
└─ 모델이 더 좋은 feature 가지고 시작
2. Faster Convergence
└─ 더 빠르게 학습 달성
3. Better Generalization
└─ 미처본 데이터에도 잘 작동
4. Interpretability
└─ 왜 이런 결정인지 설명 가능
Healthcare Example (26% of Applications)
AI 진단 예측:
├─ "이 환자 위험도 높음"
├─ 의사: "왜?"
├─ AI: "..." (설명 불가)
├─ 의사: "믿을 수 없음" ❌
With Semantic Data Mining:
├─ 온톨로지가 의료 지식 제공
├─ "혈당 높음 + 혈압 높음 → 당뇨 위험"
├─ AI: "이 규칙 때문에 위험 판정"
├─ 의사: "신뢰할 수 있음" ✅
References
- Learning-Augmented-Ontology — 반대 방향
- Hybrid-Brain — 통합된 결과
- Explainability-in-AI — 투명성 제공