Data Quality & Governance (데이터 품질 관리 및 거버넌스)

Key Insight

2026년 데이터 거버넌스는 자동화와 인간 판단의 하이브리드 모델로 진화. 자동화 도구는 이상을 감지하고, 인간은 심각도 판단·정책 수립 담당.

거버넌스 패러다임의 변화

과거 (2020년 이전)

  • 데이터 거버넌스 = 외부 레이어 (사후 검증)
  • 수동 모니터링
  • 느린 대응

현재 (2026)

  • 거버넌스 = 아키텍처 핵심 (사전 임베딩)
  • 자동화 감지 + 인간 판단 (출처: data-management-2026-trends)
  • 실시간 대응

핵심 원칙: 자동화 ≠ 자동 결정

“자동화가 인간 판단을 대체하는 것은 아니다” — CIO Magazine, 2026-01-19 (출처: data-management-2026-trends)

역할 분담

역할담당예시
자동화 (도구)감지데이터 이상치 탐지, 품질 저하 감지
인간 (데이터 팀)판단SLA 결정, 심각도 분류, 에스컬레이션 정책

품질 관리의 6가지 차원

ETL 파이프라인에서 검증해야 할 품질 요소 (출처: etl-pipeline-design-principles):

1. 정확성 (Accuracy)

데이터가 실제 상황을 올바르게 반영

  • 예: 거래금액이 정확한가?
  • 검증: 소수점 자리 확인, 범위 검증

2. 완전성 (Completeness)

모든 필요한 데이터가 수집됐는가?

  • 예: 모든 거래가 기록됐는가?
  • 검증: 누락값 확인, 레코드 카운트 비교

3. 일관성 (Consistency)

데이터 형식과 정의가 일관되는가?

  • 예: 날짜 형식이 통일됐는가? (YYYY-MM-DD vs MM/DD/YYYY)
  • 검증: 타입 확인, 코드 검증

4. 적시성 (Timeliness)

데이터가 필요한 시점에 준비되는가?

  • 예: 분석 결과가 실시간으로 반영되는가?
  • 검증: SLA 준수 여부

5. 고유성 (Uniqueness)

중복이 없는가?

  • 예: 같은 거래가 2번 적재되지 않았는가?
  • 검증: PK 제약, 중복 감지

6. 유효성 (Validity)

데이터가 정의된 규칙을 만족하는가?

  • 예: 나이 필드가 0~150 범위인가?
  • 검증: 비즈니스 규칙 적용

자동화 거버넌스 도구

2026년 표준 플랫폼 (출처: data-management-2026-trends):

Unity Catalog (Databricks)

  • 권한 관리: 테이블·컬럼 수준 접근 제어
  • 데이터 계보: 출처→처리→소비 추적
  • 자동 감시: 스키마 변경 탐지

Snowflake Horizon

  • 거버넌스 임베딩: SQL 쿼리 수행 시 정책 자동 적용
  • 역할 기반 접근: RBAC (Role-Based Access Control)
  • 감시: 쿼리 로그, 접근 기록

DAP 위키에서의 활용

dap-wiki-ops-master-plan품질 기준 수립자동화 규칙 정의:

품질 기준

  • raw/ → wiki/ 변환 시 데이터 검증 체크리스트
  • Frontmatter 완전성 (required fields)
  • 링크 유효성 검증 (broken links 감지)

자동화 규칙

  • wiki 페이지 생성 시 자동 품질 검사
  • 스케줄된 린트 실행 (매주 또는 매월)
  • 모순(Contradiction) 자동 감지

3-Phase DQM 프레임워크 (데이터 품질 관리 생명주기)

학술 표준 프레임워크로서, 데이터 품질 관리는 다음 3가지 단계를 반복하는 사이클입니다 (출처: data-quality-framework-academic):

Phase 1: 모니터링 (Monitoring)

목표: 데이터 품질 상태를 실시간으로 파악

  1. 품질 지표 설정: KPI 정의 (위의 6가지 차원)
  2. 데이터 품질 측정: 지표 자동 계산
  3. 품질 문제 탐지: 임계값 초과 시 경보

Phase 2: 개선 (Improvement)

목표: 식별된 문제를 근본적으로 해결

  1. 원인 분석: Root Cause Analysis (RCA)
    • 누락값 발생 원인은? (소스 이슈 vs 추출 오류?)
  2. 개선 방안 수립: 액션 플랜
    • 소스 수정? 추출 로직 개선? 정제 규칙 강화?
  3. 개선 실행: Remediation 및 재검증

Phase 3: 활용 (Utilization)

목표: 품질이 개선된 데이터를 안전하게 활용

  1. 활용 가능성 평가: Fitness for Purpose
    • 이 데이터가 분석에 충분히 좋은가?
  2. 활용 방법 결정: 사용 범위 결정
    • 어느 애플리케이션에 사용할 것인가?
  3. 활용 실행: 모니터링 및 피드백

사이클: Phase 1 → 2 → 3 → 1 (반복)

DQM 시스템 구성 (출처: data-quality-framework-academic)

3가지 주요 기능

  1. DQM (Data Quality Management): 품질 정책 정의 및 실행
  2. 품질 측정 엔진: 지표 계산 (자동화)
  3. 외부 시스템 연계: 보고, BI 시스템 연동

DQM 데이터베이스

  • 측정 결과 시계열 저장
  • 개선 이력 추적 (who-what-when)
  • 품질 지표 메타데이터

모니터링 체크리스트 (DAP 위키에 적용)

항목검증 방법빈도Phase
Frontmatter 완전성필수 필드(created, updated, tags) 확인매 변경 시1
링크 유효성Obsidian 그래프에서 orphan 페이지 감지주 1회1
출처 인용주장 뒤 (출처: ) 확인페이지 생성 시1
시점 데이터valid_as_of 필드 나이 확인월 1회1
모순⚠️ Contradiction 섹션 유무변경 시2
가용성 평가연관 프로젝트/사용자 반응분기 1회3

관련 개념