JYP Garden

❯

❯

빅 데이터 아키텍처

빅 데이터 아키텍처

Properties1

tags	source, dap, big-data, architecture, azure, cloud, knowledge

2026년 4월 28일4 min read

빅 데이터 아키텍처 — Microsoft Learn

검토 필요

원본 자료 재방문 권장 (이전 valid_as_of: 2025-09-12)

핵심 Takeaway

빅 데이터 아키텍처는 기존 OLTP 시스템 범위를 벗어난 대규모·복잡 데이터의 수집-처리-분석을 위한 통합 설계이며, 최신 트렌드는 람다(Lambda)·카파(Kappa)·레이크하우스 3가지 패러다임으로 수렴하고 있다. 특히 레이크하우스는 데이터 레이크의 유연성과 웨어하우스의 거버넌스를 결합하는 미래 표준으로 인식된다.

상세 요약

빅 데이터 아키텍처의 정의 진화

과거: “데이터 크기가 크다” 중심
현재: “고급 분석에서 파생된 가치” 중심
임계값은 조직·도구·역량에 따라 상이

주요 워크로드 4가지

보관 중인 빅 데이터 원본 일괄 처리 (배치)
동작 중인 빅 데이터의 실시간 처리 (스트리밍)
빅 데이터의 대화형 탐색 (조회)
예측 분석 및 기계 학습 (AI)

핵심 구성 요소 (9가지 범주)

데이터 원본: OLTP, 로그, IoT
데이터 스토리지: Data Lake, Blob, 분산 파일 시스템
일괄 처리: Databricks, Fabric Notebook, MapReduce
실시간 수집: Event Hubs, IoT Hub, Kafka
스트림 처리: Spark Streaming, Azure Functions, Fabric Event Stream
분석 저장소: DW, NoSQL, Hive
분석·보고: Power BI, OLAP, Analysis Services
오케스트레이션: Data Factory, Fabric Workflow, Oozie
메타데이터·거버넌스: (구성 요소로 명시되진 않음, 암묵적)

람다 아키텍처 (Lambda Architecture)

콜드 경로 (일괄): 모든 데이터 원시 저장 → 일괄 처리 → 배치 뷰
핫 경로 (실시간): 실시간 분석 (낮은 정확도, 짧은 지연)
서빙 계층: 일괄 뷰 인덱싱 + 핫 경로 업데이트 병합

카파 아키텍처 (Kappa Architecture)

람다의 대안: 단일 스트림 처리 경로
이벤트 스트림을 분산된 내결함성 통합 로그로 구성
실시간 뷰 유지 + 재생으로 백필 가능

레이크하우스 아키텍처 ⭐

정의: Data Lake + Data Warehouse 최적 요소 결합
특징:
- 구조화 + 비정형 데이터 모두 지원
- Parquet, ORC 등 개방형 포맷
- ACID 트랜잭션 지원
- 효율적 데이터 관리·분석
예시: Azure OneLake, Delta Lake

IoT 아키텍처 (특수 케이스)

디바이스 → 필드 게이트웨이 (전처리) → 클라우드 게이트웨이 (신뢰 메시징) → 스트림 프로세서 (실시간 분석) → 스토리지
콜드 경로: 모든 데이터 저장
핫 경로: 실시간 변칙 감지 + 예측 유지 관리

연결되는 위키 페이지

lakehouse-architecture — 레이크하우스 패러다임의 상세 정의·기술 스택
etl-design-framework — 워크로드 4가지를 ETL 설계 원칙으로 매핑
data-quality-and-governance — 구성 요소 8번(메타·거버넌스)과 연계

그래프 뷰

빅 데이터 아키텍처 — Microsoft Learn
핵심 Takeaway
상세 요약
빅 데이터 아키텍처의 정의 진화
주요 워크로드 4가지
핵심 구성 요소 (9가지 범주)
람다 아키텍처 (Lambda Architecture)
카파 아키텍처 (Kappa Architecture)
레이크하우스 아키텍처 ⭐
IoT 아키텍처 (특수 케이스)
연결되는 위키 페이지

Created with Quartz v5.0.0 © 2026