Lakehouse Architecture & Cloud Data Platforms
데이터 레이크의 유연성과 웨어하우스의 정합성을 결합한 레이크하우스 패러다임과 클라우드 기반 관리형 데이터 플랫폼 기술을 다루는 학습 노드입니다.
sys.entry
M
Me
hyunyoun's Blog
posts6 min read
1. Overview
레이크하우스 아키텍처 및 클라우드 데이터 플랫폼(Lakehouse Architecture & Cloud Data Platforms, LCP)은 현대 기업의 고성능 대규모 분석 환경을 구축하는 통합 인프라 방법론을 다룹니다.
과거에는 저렴한 비정형 저장소인 데이터 레이크(Data Lake)와 고성능 정형 질의 공간인 데이터 웨어하우스(Data Warehouse)가 물리적으로 분리되어 있었습니다. 학습자는 이를 하나로 통합하여 객체 스토리지(S3 등) 위에서 트랜잭션과 스키마 엔포싱을 지원하는 레이크하우스 역학을 학습합니다. 또한 클라우드 전용 아키텍처(Separation of Compute and Storage)가 가지는 비용 및 성능상의 물리적 이점을 분석하여 최신 '모던 데이터 스택'을 설계합니다.
2. Scope & Boundaries
In-Scope
- Core Paradigm: Data Lake, Data Warehouse, Lakehouse 3대 패러다임 비교
- Storage Tiering: Object Storage (S3, GCS) 물리 배치 및 데이터 카탈로그 연동
- Table Formats: Delta Lake, Iceberg, Hudi의 트랜잭션 로그 메커니즘 및 버전 관리
- Compute Scalability: 연산과 저장의 분리(Compute-Storage separation) 물리 및 오토스케일링
Out-of-Scope
- 온프레미스 레거시 하드웨어 서버 구매 및 유지보수 (03-04 Storage 영역으로 위임)
- 순수 머신러닝 모델 학습 라이브러리 사용법 (11. Machine Learning 영역으로 위임)
Boundaries
- LCP vs. Data Governance: 06-04(GPE)가 '데이터 법적 보호와 품질 관리'를 다룬다면, LCP는 '그 데이터를 담는 클라우드 기반의 거대한 물리적 용기와 연산 인프라'에 집중합니다.
3. Counterexample
- 단순히 클라우드에 CSV 파일을 올리는 것은 LCP 학습이 아닙니다. 왜 단순한 레이크 환경에서는 **데이터 신선도(Freshness)**와 **부분 업데이트(UPSERT)**가 어려운지 설명하고, 이를 해결하기 위해 어떻게 메타데이터 레이어를 통한 **낙관적 동시성 제어(OCC)**를 적용할지 설계할 수 있어야 합니다.
4. Prerequisites
- 관계형 시스템 기초 (Basic): 테이블 구조와 SQL 질의 이해가 DW 접근의 기본입니다. (06. RS)
- 분산 로직 및 저장 물리 (Recommended): 객체 스토리지의 결과적 일관성(Eventual Consistency) 이해가 필수입니다. (06. DLP)
5. Learning Map
- Evolution of Storage: 사일로화된 DW에서 유연한 레이크, 그리고 통합 레이크하우스로의 변화를 익힙니다.
- Metadata Overlays: 깡통 저장소(S3) 위에 논리적 테이블 구조를 부여하는 테이블 포맷 기술을 이해합니다.
- Cloud-Native Compute: 필요한 만큼만 연산 자원을 당겨 쓰고 반납하는 클라우드 성능 기법을 배웁니다.
- Platform Integration: 데이터 엔지니어링 전과정을 클라우드 관리형 서비스들로 엮어 원스톱 플랫폼을 구축합니다.
6. Learning Topics
Basic
Core: 데이터 레이크 vs 웨어하우스 (Legacy vs Modern)
- Why to Learn: 분석 요구사항과 예산에 맞는 데이터 전략의 근본을 이해하기 위함입니다.
- What to Learn:
- 데이터 웨어하우스(DW): 고성능 정형 질의의 물리적 장점과 스케일 아웃의 한계
- 데이터 레이크(DL): 저비용 대규모 비정형 저장의 물리와 '데이터 늪(Swamp)' 위험성
- ETL/ELT 패러다임 변화와 두 저장소 간의 물리적 장벽
- How to Learn:
- 기업의 분석 시스템 변천사 사례 조사를 통해 각 단계에서 발생한 비용/성능 이슈 식별
- 정규화된 DW 스키마와 정규화되지 않은 레이크 파일 구조 간의 읽기 속도 비교 시뮬레이션
- Implement: 데이터 레이크와 웨어하우스의 장단점을 특정 비즈니스 사례에 대입한 비교 보고서
Recommended
Core: 레이크하우스와 오픈 테이블 포맷 (Lakehouse Formats)
- Why to Learn: 저렴한 스토리지에서도 고성능 RDB와 같은 트랜잭션을 보장하기 위해서입니다.
- What to Learn:
- Delta Lake, Apache Iceberg, Apache Hudi의 물리적 비교
- 트랜잭션 로그(JSON/Avro)를 이용한 타임 트래블(Time Travel) 및 스냅샷 격리
- 컬럼너 저장소(Parquet, ORC)의 데이터 수직 압축 및 프로젝션 푸시다운 물리
- How to Learn:
- Delta Lake 라이브러리를 사용하여 데이터를 덮어쓰지 않고 특정 과거 시점으로 복구(Rollback) 실습
- 파일 시스템 상의 파티션 구조와 메타데이터 파일 간의 참조 관계 수기 도식화
- Implement: 특정 데이터셋에 대해 UPSERT 성능을 극대화하는 테이블 포맷 선택 및 설정 가이드
Practical
Core: 클라우드 컴퓨팅과 저장소 분리 (Separation Physics)
- Why to Learn: 인프라 비용을 획기적으로 줄이면서 무한대에 가까운 확장성을 얻기 위함입니다.
- What to Learn:
- 컴퓨팅-저장 분리 아키텍처: 네트워크를 통한 데이터 셔플링 병목과 해결책
- 세션 기반 임시 연산 클러스터(Ephemeral Clusters)의 물리적 생애주기
- 공유 저장소(S3/GCS)의 동시성 처리 한계와 고속 버퍼 기술
- How to Learn:
- 클라우드 DW 인스턴스 사양 변경 시 데이터 재배치(Rebalancing) 오버헤드가 없는 이유 분석
- 로컬 SSD 연산과 클라우드 저장소 연산 간의 데이터 패킷 당 지연 시간 실측 비교
- Implement: 워크로드 peak 타임에만 자원을 확장하는 비용 효율적 데이터 플랫폼 구성도
Advanced
Core: 현대적 데이터 스택과 통합 플랫폼 (Modern Data Stack)
- Why to Learn: 수동 코딩을 줄이고 관리형 서비스 조합으로 데이터 팀의 전반적인 생산성을 높이기 위해서입니다.
- What to Learn:
- 관리형 DW(Snowflake, BigQuery, Redshift) 아키텍처 특성 분석
- 데이터 검색 및 보안 계층 통합: Federated Query 기능을 이용한 데이터 융합 물리
- 서버리스 데이터 처리 엔진의 런티임 격리 및 Cold Start 분석
- How to Learn:
- 상용 데이터 플랫폼 간의 기능 명세표를 만들고 특정 기술(예: Micro-partitioning)의 득실 연구
- 서로 다른 클라우드 리전에 있는 데이터 소스를 하나로 묶을 때 발생하는 물리적 지연 최소화 전략 수립
- Implement: 데이터 수집, 가공, 저장, 노출을 연결하는 엔드-투-엔드 클라우드 데이터 허브 설계서
7. Terminology
8. References
Primary References
- [P4] DS-BoK - Data Platforms & Infrastructure — Modern architectural trends.
- [P5] SFIA - Data Management — Enterprise level data platform skills.
Secondary References
- [Building the Data Lakehouse] Bill Inmon — The father of DW on modern tech.
- [The Modern Data Stack] online courseware/books — Integrating managed services.
Industry References
- [Databricks: Lakehouse Architecture Definition] — Industry pioneer whitepaper.
- [Snowflake: Architecture & Design Overview] — Unique cloud DW implementation.
9. Final Checklist
Primary Checklist
- 데이터 웨어하우스를 운영할 때 발생하는 '데이터 사일로' 현상을 레이크하우스가 어떠한 물리적 통합 방식으로 해결하는지 설명 가능한가? (P4)
- 컬럼 기반 저장 포맷(Parquet 등)이 특정 열만 조회하는 집계 쿼리에서 왜 I/O를 획기적으로 줄이는지 수리적으로 인지하는가? (P4)
Secondary Checklist
- 컴퓨팅과 저장소가 물리적으로 분리된 환경에서, 네트워크 지연(Network Latency)이 쿼리 성능에 미치는 영향을 제안 및 분석 가능한가?
- 테이블 포맷 간의(Delta vs Iceberg) 메타데이터 관리 방식 차이가 다중 동시성 쓰기 환경에서 어떤 영향을 주는지 이해하고 있는가?
Industry Checklist
- Snowflake나 BigQuery와 같은 서버리스 DW를 도입할 때의 비용 모델이 고정 할당 방식 대비 가지는 물리 자원 경제성을 평가 가능한가? (SFIA)
- 데이터 레이크를 구축한 후 데이터 카탈로그가 부재할 때 발생하는 '데이터 늪(Data Swamp)' 상태를 식별하고 해결책을 제시 가능한가?