빅 데이터 아키텍처 — Microsoft Learn
검토 필요
원본 자료 재방문 권장 (이전 valid_as_of: 2025-09-12)
핵심 Takeaway
빅 데이터 아키텍처는 기존 OLTP 시스템 범위를 벗어난 대규모·복잡 데이터의 수집-처리-분석을 위한 통합 설계이며, 최신 트렌드는 람다(Lambda)·카파(Kappa)·레이크하우스 3가지 패러다임으로 수렴하고 있다. 특히 레이크하우스는 데이터 레이크의 유연성과 웨어하우스의 거버넌스를 결합하는 미래 표준으로 인식된다.
상세 요약
빅 데이터 아키텍처의 정의 진화
- 과거: “데이터 크기가 크다” 중심
- 현재: “고급 분석에서 파생된 가치” 중심
- 임계값은 조직·도구·역량에 따라 상이
주요 워크로드 4가지
- 보관 중인 빅 데이터 원본 일괄 처리 (배치)
- 동작 중인 빅 데이터의 실시간 처리 (스트리밍)
- 빅 데이터의 대화형 탐색 (조회)
- 예측 분석 및 기계 학습 (AI)
핵심 구성 요소 (9가지 범주)
- 데이터 원본: OLTP, 로그, IoT
- 데이터 스토리지: Data Lake, Blob, 분산 파일 시스템
- 일괄 처리: Databricks, Fabric Notebook, MapReduce
- 실시간 수집: Event Hubs, IoT Hub, Kafka
- 스트림 처리: Spark Streaming, Azure Functions, Fabric Event Stream
- 분석 저장소: DW, NoSQL, Hive
- 분석·보고: Power BI, OLAP, Analysis Services
- 오케스트레이션: Data Factory, Fabric Workflow, Oozie
- 메타데이터·거버넌스: (구성 요소로 명시되진 않음, 암묵적)
람다 아키텍처 (Lambda Architecture)
- 콜드 경로 (일괄): 모든 데이터 원시 저장 → 일괄 처리 → 배치 뷰
- 핫 경로 (실시간): 실시간 분석 (낮은 정확도, 짧은 지연)
- 서빙 계층: 일괄 뷰 인덱싱 + 핫 경로 업데이트 병합
카파 아키텍처 (Kappa Architecture)
- 람다의 대안: 단일 스트림 처리 경로
- 이벤트 스트림을 분산된 내결함성 통합 로그로 구성
- 실시간 뷰 유지 + 재생으로 백필 가능
레이크하우스 아키텍처 ⭐
- 정의: Data Lake + Data Warehouse 최적 요소 결합
- 특징:
- 구조화 + 비정형 데이터 모두 지원
- Parquet, ORC 등 개방형 포맷
- ACID 트랜잭션 지원
- 효율적 데이터 관리·분석
- 예시: Azure OneLake, Delta Lake
IoT 아키텍처 (특수 케이스)
- 디바이스 → 필드 게이트웨이 (전처리) → 클라우드 게이트웨이 (신뢰 메시징) → 스트림 프로세서 (실시간 분석) → 스토리지
- 콜드 경로: 모든 데이터 저장
- 핫 경로: 실시간 변칙 감지 + 예측 유지 관리
연결되는 위키 페이지
- lakehouse-architecture — 레이크하우스 패러다임의 상세 정의·기술 스택
- etl-design-framework — 워크로드 4가지를 ETL 설계 원칙으로 매핑
- data-quality-and-governance — 구성 요소 8번(메타·거버넌스)과 연계