Data Quality & Governance (데이터 품질 관리 및 거버넌스)
Key Insight
2026년 데이터 거버넌스는 자동화와 인간 판단의 하이브리드 모델로 진화. 자동화 도구는 이상을 감지하고, 인간은 심각도 판단·정책 수립 담당.
거버넌스 패러다임의 변화
과거 (2020년 이전)
- 데이터 거버넌스 = 외부 레이어 (사후 검증)
- 수동 모니터링
- 느린 대응
현재 (2026)
- 거버넌스 = 아키텍처 핵심 (사전 임베딩)
- 자동화 감지 + 인간 판단 (출처: data-management-2026-trends)
- 실시간 대응
핵심 원칙: 자동화 ≠ 자동 결정
“자동화가 인간 판단을 대체하는 것은 아니다” — CIO Magazine, 2026-01-19 (출처: data-management-2026-trends)
역할 분담
| 역할 | 담당 | 예시 |
|---|---|---|
| 자동화 (도구) | 감지 | 데이터 이상치 탐지, 품질 저하 감지 |
| 인간 (데이터 팀) | 판단 | SLA 결정, 심각도 분류, 에스컬레이션 정책 |
품질 관리의 6가지 차원
ETL 파이프라인에서 검증해야 할 품질 요소 (출처: etl-pipeline-design-principles):
1. 정확성 (Accuracy)
데이터가 실제 상황을 올바르게 반영
- 예: 거래금액이 정확한가?
- 검증: 소수점 자리 확인, 범위 검증
2. 완전성 (Completeness)
모든 필요한 데이터가 수집됐는가?
- 예: 모든 거래가 기록됐는가?
- 검증: 누락값 확인, 레코드 카운트 비교
3. 일관성 (Consistency)
데이터 형식과 정의가 일관되는가?
- 예: 날짜 형식이 통일됐는가? (YYYY-MM-DD vs MM/DD/YYYY)
- 검증: 타입 확인, 코드 검증
4. 적시성 (Timeliness)
데이터가 필요한 시점에 준비되는가?
- 예: 분석 결과가 실시간으로 반영되는가?
- 검증: SLA 준수 여부
5. 고유성 (Uniqueness)
중복이 없는가?
- 예: 같은 거래가 2번 적재되지 않았는가?
- 검증: PK 제약, 중복 감지
6. 유효성 (Validity)
데이터가 정의된 규칙을 만족하는가?
- 예: 나이 필드가 0~150 범위인가?
- 검증: 비즈니스 규칙 적용
자동화 거버넌스 도구
2026년 표준 플랫폼 (출처: data-management-2026-trends):
Unity Catalog (Databricks)
- 권한 관리: 테이블·컬럼 수준 접근 제어
- 데이터 계보: 출처→처리→소비 추적
- 자동 감시: 스키마 변경 탐지
Snowflake Horizon
- 거버넌스 임베딩: SQL 쿼리 수행 시 정책 자동 적용
- 역할 기반 접근: RBAC (Role-Based Access Control)
- 감시: 쿼리 로그, 접근 기록
DAP 위키에서의 활용
dap-wiki-ops-master-plan의 품질 기준 수립 및 자동화 규칙 정의:
품질 기준
- raw/ → wiki/ 변환 시 데이터 검증 체크리스트
- Frontmatter 완전성 (required fields)
- 링크 유효성 검증 (broken links 감지)
자동화 규칙
- wiki 페이지 생성 시 자동 품질 검사
- 스케줄된 린트 실행 (매주 또는 매월)
- 모순(Contradiction) 자동 감지
3-Phase DQM 프레임워크 (데이터 품질 관리 생명주기)
학술 표준 프레임워크로서, 데이터 품질 관리는 다음 3가지 단계를 반복하는 사이클입니다 (출처: data-quality-framework-academic):
Phase 1: 모니터링 (Monitoring)
목표: 데이터 품질 상태를 실시간으로 파악
- 품질 지표 설정: KPI 정의 (위의 6가지 차원)
- 데이터 품질 측정: 지표 자동 계산
- 품질 문제 탐지: 임계값 초과 시 경보
Phase 2: 개선 (Improvement)
목표: 식별된 문제를 근본적으로 해결
- 원인 분석: Root Cause Analysis (RCA)
- 누락값 발생 원인은? (소스 이슈 vs 추출 오류?)
- 개선 방안 수립: 액션 플랜
- 소스 수정? 추출 로직 개선? 정제 규칙 강화?
- 개선 실행: Remediation 및 재검증
Phase 3: 활용 (Utilization)
목표: 품질이 개선된 데이터를 안전하게 활용
- 활용 가능성 평가: Fitness for Purpose
- 이 데이터가 분석에 충분히 좋은가?
- 활용 방법 결정: 사용 범위 결정
- 어느 애플리케이션에 사용할 것인가?
- 활용 실행: 모니터링 및 피드백
사이클: Phase 1 → 2 → 3 → 1 (반복)
DQM 시스템 구성 (출처: data-quality-framework-academic)
3가지 주요 기능
- DQM (Data Quality Management): 품질 정책 정의 및 실행
- 품질 측정 엔진: 지표 계산 (자동화)
- 외부 시스템 연계: 보고, BI 시스템 연동
DQM 데이터베이스
- 측정 결과 시계열 저장
- 개선 이력 추적 (who-what-when)
- 품질 지표 메타데이터
모니터링 체크리스트 (DAP 위키에 적용)
| 항목 | 검증 방법 | 빈도 | Phase |
|---|---|---|---|
| Frontmatter 완전성 | 필수 필드(created, updated, tags) 확인 | 매 변경 시 | 1 |
| 링크 유효성 | Obsidian 그래프에서 orphan 페이지 감지 | 주 1회 | 1 |
| 출처 인용 | 주장 뒤 (출처: ) 확인 | 페이지 생성 시 | 1 |
| 시점 데이터 | valid_as_of 필드 나이 확인 | 월 1회 | 1 |
| 모순 | ⚠️ Contradiction 섹션 유무 | 변경 시 | 2 |
| 가용성 평가 | 연관 프로젝트/사용자 반응 | 분기 1회 | 3 |
관련 개념
- etl-design-framework — ETL 파이프라인 설계
- lakehouse-architecture — 데이터 저장소와 거버넌스