데이터 아키텍처(Data Architecture)? 쉽게 배워봅시다!

검토 필요

원본 자료 재방문 권장 (이전 valid_as_of: 2023-11-14)

Source: data-architecture-heartcount Type: Article By: Jaden Jung (Heartcount) Valid as of: 2023-11-14

핵심 Takeaway

  • 데이터 아키텍처는 조직 내 데이터 수집, 저장, 처리, 관리의 체계적 시스템
  • ETL(추출·변환·로드)은 다중 소스 데이터를 표준화하는 3단계 프로세스
  • 데이터 저장소는 웨어하우스(정형)와 데이터 레이크(정형/반정형/비정형)로 구분
  • 데이터 마트는 부서별 성능·보안·접근권한을 최적화한 웨어하우스 서브셋
  • 데이터 원본은 데이터베이스, 애플리케이션 로그, 웹 데이터, IoT 디바이스 등 다양

상세 요약

데이터 원본 (Data Sources)

데이터는 다음과 같은 다양한 채널에서 생성됩니다:

  • 트랜잭션 데이터: OLTP 데이터베이스, ERP, CRM 등 애플리케이션
  • 외부 데이터: 3자 제공업체, API, 데이터마켓
  • 행동 데이터: 웹 서버 로그, 사용자 인터랙션 기록
  • 실시간 스트림: IoT 디바이스, 센서 데이터

ETL 프로세스

데이터 통합의 핵심 3단계:

  1. Extraction (추출): 여러 소스에서 필요한 데이터를 정확하게 취득
  2. Transformation (변환): 데이터를 원하는 형식으로 변환하고 불필요 요소 제거
  3. Load (적재): 처리된 데이터를 웨어하우스나 데이터 레이크에 저장

저장 솔루션의 선택

데이터 웨어하우스 (DW)

  • 구조화된 정형 데이터 전문
  • 안정적 장기 보관 및 분석에 최적
  • OLAP 쿼리 성능 우수

데이터 레이크

  • 정형/반정형/비정형 데이터 모두 수용
  • 이미지, 로그, 비디오 등 다양한 포맷 저장 가능
  • 원본 데이터 형태 보존 (스키마 미적용)

데이터 마트

웨어하우스의 특화된 부분집합:

  • 특정 부서/팀이 필요한 데이터 추출
  • 접근 권한 및 보안 세분화
  • 쿼리 성능 최적화

연결되는 위키 페이지