빅 데이터 아키텍처 — Microsoft Learn

검토 필요

원본 자료 재방문 권장 (이전 valid_as_of: 2025-09-12)

핵심 Takeaway

빅 데이터 아키텍처는 기존 OLTP 시스템 범위를 벗어난 대규모·복잡 데이터의 수집-처리-분석을 위한 통합 설계이며, 최신 트렌드는 람다(Lambda)·카파(Kappa)·레이크하우스 3가지 패러다임으로 수렴하고 있다. 특히 레이크하우스는 데이터 레이크의 유연성과 웨어하우스의 거버넌스를 결합하는 미래 표준으로 인식된다.

상세 요약

빅 데이터 아키텍처의 정의 진화

  • 과거: “데이터 크기가 크다” 중심
  • 현재: “고급 분석에서 파생된 가치” 중심
  • 임계값은 조직·도구·역량에 따라 상이

주요 워크로드 4가지

  1. 보관 중인 빅 데이터 원본 일괄 처리 (배치)
  2. 동작 중인 빅 데이터의 실시간 처리 (스트리밍)
  3. 빅 데이터의 대화형 탐색 (조회)
  4. 예측 분석 및 기계 학습 (AI)

핵심 구성 요소 (9가지 범주)

  1. 데이터 원본: OLTP, 로그, IoT
  2. 데이터 스토리지: Data Lake, Blob, 분산 파일 시스템
  3. 일괄 처리: Databricks, Fabric Notebook, MapReduce
  4. 실시간 수집: Event Hubs, IoT Hub, Kafka
  5. 스트림 처리: Spark Streaming, Azure Functions, Fabric Event Stream
  6. 분석 저장소: DW, NoSQL, Hive
  7. 분석·보고: Power BI, OLAP, Analysis Services
  8. 오케스트레이션: Data Factory, Fabric Workflow, Oozie
  9. 메타데이터·거버넌스: (구성 요소로 명시되진 않음, 암묵적)

람다 아키텍처 (Lambda Architecture)

  • 콜드 경로 (일괄): 모든 데이터 원시 저장 → 일괄 처리 → 배치 뷰
  • 핫 경로 (실시간): 실시간 분석 (낮은 정확도, 짧은 지연)
  • 서빙 계층: 일괄 뷰 인덱싱 + 핫 경로 업데이트 병합

카파 아키텍처 (Kappa Architecture)

  • 람다의 대안: 단일 스트림 처리 경로
  • 이벤트 스트림을 분산된 내결함성 통합 로그로 구성
  • 실시간 뷰 유지 + 재생으로 백필 가능

레이크하우스 아키텍처 ⭐

  • 정의: Data Lake + Data Warehouse 최적 요소 결합
  • 특징:
    • 구조화 + 비정형 데이터 모두 지원
    • Parquet, ORC 등 개방형 포맷
    • ACID 트랜잭션 지원
    • 효율적 데이터 관리·분석
  • 예시: Azure OneLake, Delta Lake

IoT 아키텍처 (특수 케이스)

  • 디바이스 → 필드 게이트웨이 (전처리) → 클라우드 게이트웨이 (신뢰 메시징) → 스트림 프로세서 (실시간 분석) → 스토리지
  • 콜드 경로: 모든 데이터 저장
  • 핫 경로: 실시간 변칙 감지 + 예측 유지 관리

연결되는 위키 페이지