Ontology Generation using Large Language Models

채널: AI인터시스브랜드 | 날짜: 2025-12-12 | 길이: 약 7분 26초


Summary

Video 1에서 온톨로지를 사용하여 LLM의 hallucination을 제어하는 방법을 배웠다면, 이번 영상은 역방향: LLM 자체를 활용하여 온톨로지를 자동으로 생성하는 기법을 다룹니다.

텍스트 데이터로부터 자동으로 클래스, 속성, 관계를 추출하고, 이를 구조화된 온톨로지로 변환하는 완전 자동화 파이프라인을 소개합니다.


Key Claims

  • 온톨로지 수작업의 비효율성: 전문가가 수동으로 온톨로지를 설계하는 것은 시간 소모적
  • LLM의 자동 추출 능력: LLM을 올바르게 사용하면 텍스트로부터 온톨로지 구조 자동 생성 가능
  • 반복적 개선: 초기 생성된 온톨로지 → LLM 검증 → 개선 의 반복 루프
  • 도메인 적응성: 새로운 도메인에 빠르게 온톨로지 구축 가능
  • 비용 절감: 전문 온톨로지 설계자 없이도 품질 높은 온톨로지 자동 생성

Key Topics

1. 자동 온톨로지 생성의 필요성

전통 방식 (수동)
  └─ 도메인 전문가 → 인터뷰 → 클래스 설계 → 속성 정의 → 관계 매핑
     시간: 수주~수개월
     비용: 높음
     유연성: 낮음

LLM 기반 자동화
  └─ 텍스트 데이터 → LLM 추출 → 초기 온톨로지 → 검증 → 최종 온톨로지
     시간: 수시간~수일
     비용: 낮음 (API 비용만)
     유연성: 높음

2. LLM 기반 온톨로지 생성 프로세스

Step 1: 텍스트 입력
  ├─ 도메인 문서 모음 (예: 의료 기록, 제품 설명 등)
  └─ 크기: 최소 100문서 이상 권장

Step 2: LLM 추출 (Few-shot Learning)
  ├─ 프롬프트: "다음 텍스트에서 온톨로지 구조를 추출하세요"
  ├─ 입력: 샘플 텍스트 + 원하는 출력 형식 (예: JSON)
  └─ 결과: 클래스, 속성, 관계 리스트

Step 3: 구조화 & 정규화
  ├─ 중복 제거 (동의어 통합)
  ├─ 계층 구조 확립
  └─ 속성 타입 정의 (String, Integer, Date 등)

Step 4: 검증 & 피드백
  ├─ 온톨로지가 원본 데이터를 잘 표현하는가?
  ├─ 누락된 개념은?
  └─ LLM에 피드백 반영하여 재생성

Step 5: 최적화
  ├─ 불필요한 클래스 제거
  ├─ 세분화/일반화 조정
  └─ 문서화 (각 클래스와 관계의 정의)

3. 구체적 예: 의료 도메인

입력 텍스트:

"환자 김철수는 2023년 1월 15일 고혈압으로 
서울 대학병원의 내과 의사 이영희에게 진료받았습니다. 
약물은 리시노프릴 10mg을 하루 1회 처방받았습니다."

LLM 자동 추출:

{
  "classes": [
    {
      "name": "Patient",
      "attributes": ["name", "visitDate", "diagnosis"]
    },
    {
      "name": "Doctor",
      "attributes": ["name", "department", "hospital"]
    },
    {
      "name": "Medication",
      "attributes": ["name", "dosage", "frequency"]
    },
    {
      "name": "Hospital",
      "attributes": ["name", "location"]
    }
  ],
  "relationships": [
    {
      "from": "Patient",
      "to": "Doctor",
      "type": "CONSULTED_WITH"
    },
    {
      "from": "Doctor",
      "to": "Hospital",
      "type": "WORKS_AT"
    },
    {
      "from": "Patient",
      "to": "Medication",
      "type": "PRESCRIBED"
    }
  ]
}

4. 자동 생성 vs. 수동 설계

측면자동 생성수동 설계
속도빠름 (수시간)느림 (수주)
비용낮음 (API 비용)높음 (전문가)
정확도초기: 70~80% → 반복으로 개선높음 (90%+) 하지만 시간 소요
유연성높음 (쉽게 수정)낮음 (전체 재설계 필요)
초기 구축우수우수
유지보수우수 (자동 업데이트 가능)나쁨 (수동 갱신)

결론: 초기 구축은 자동 생성 + 반복 검증으로 빠르게, 최종 정제는 전문가 검토

5. 도메인별 온톨로지 생성 전략

매우 구조화된 도메인 (예: 금융, 의료)

  • LLM 자동 생성 효율 높음
  • 초기 정확도 80%+
  • 반복 검증으로 95%+ 달성 가능

약간 구조화된 도메인 (예: 이커머스, HR)

  • LLM 생성 + 수동 조정 필요
  • 초기 정확도 60~70%
  • 도메인 전문가 검토 필수

비정형 도메인 (예: 소설, 대화)

  • LLM 생성이 기초 제공
  • 초기 정확도 40~50%
  • 상당한 수동 정제 필요



Key Insights (My Analysis)

  1. Video 1 ↔ Video 2의 상호 보완성:

    • Video 1: 온톨로지 → 제약 → LLM 제어
    • Video 2: 데이터 → LLM → 온톨로지 자동 생성
    • 결합: 자동 생성 온톨로지 + LLM 제어 = 신뢰 가능한 시스템
  2. 엔터프라이즈 온톨로지 구축의 실무 패턴:

    • Phase 1: LLM 자동 생성 (1~2일)
    • Phase 2: 반복 검증 (3~5일)
    • Phase 3: 전문가 정제 (1~2주)
    • 총 시간: 기존 36개월 → 34주로 단축
  3. AIINTERSYSBREND 강의 구조:

    • Video 1: 온톨로지의 필요성 (왜?)
    • Video 2: 온톨로지의 자동 생성 (어떻게?)
    • Video 3~10: 온톨로지의 활용 (어디에?)

Connections to Other Sources


출처: AI인터시스브랜드 채널 (2025-12-12)