Definition
데이터 사일로(Data Silo)는 조직 내에서 서로 다른 시스템, 부서, 도메인에 갇혀 있는 분리된 데이터 저장소를 의미한다. 각 사일로는 독립적인 데이터 포맷, 스키마, 쿼리 언어를 사용하여 상호 연결되지 않은 거대한 섬(island)과 같다.
Problem Statement
- 상호 비호환성: 의료기록(EHR), 금융거래(Financial), 과학연구(Research) 데이터가 서로 다른 언어와 구조로 존재
- 의미적 연결 불가: 다른 데이터베이스의 정보를 참조하여 복잡한 질문을 던질 수 없음
- 비효율적 통합: 데이터 통합 프로젝트는 시간 소비, 비용 증가, 낮은 성공률
- 보이지 않는 벽(Invisible Wall): 조직 내 깊게 내재된 구조 때문에 근본적 해결이 어려움
Metaphor: Data Warehouse vs Smart Library
| 상태 | 특징 | 문제 |
|---|---|---|
| Data Warehouse (현황) | 귀중품들이 상자에 가득 쌓여 있음 | 라벨이 없어서 뭐가 어디 있는지, 어떤 물건들이 관련 있는지 알 수 없음 |
| Smart Library (목표) | 모든 정보에 꼬리표(label)가 붙고 서로 연결됨 | 아무리 복잡한 질문도 척 답을 찾아줌 |
Solution Approach
Master-Catalog (온톨로지)를 통해 데이터 사일로를 Smart-Library로 변환:
- 단일 공용 언어(lingua franca) 도입
- 모든 데이터 간 의미적 관계 명시
- RAG-for-Ontology 기술로 자동 구축
References
- rag-ontologies-relational.md — RIGOR 시스템이 데이터 사일로 문제 해결
- Master-Catalog — 해결책