AI Lifecycle & Data Engineering
AI 모델의 탄생부터 운영, 폐기까지의 전 과정을 수리적으로 관리하고, 고성능 모델 학습을 위한 물리적 데이터 파이프라인과 품질 제어 역학을 다룹니다.
sys.entry
M
Me
hyunyoun's Blog
posts7 min read
1. Overview
AI 생애주기 및 데이터 공학(AI Lifecycle & Data Engineering, ALD)은 단순한 모델 학습을 넘어, 원시 데이터를 하이엔드 지능형 자산으로 물리 변환하고 모델의 운영 전 과정을 수리적으로 설계하는 '시스템적 인텔리전스 물리학'입니다.
학습자는 모델의 수리적 성능을 결정짓는 데이터 파이프라인의 물리적 구축과, 대규모 라벨링 데이터의 수치적 정합성을 유지하는 품질 제어(Quality Control) 수순을 배웁니다. 특히, 학습에 사용된 피처 수치를 중앙에서 관리하여 물리적 일관성을 보장하는 **피처 스토어(Feature Store)**의 역할을 익힙니다. 이를 통해 '운이 좋아서 잘 돌아가는 모델'이 아닌, 데이터 공급망 전체를 수치적으로 지배하는 하이엔드 AI 아키텍처 거버넌스 역량을 확보합니다.
2. Scope & Boundaries
In-Scope
- End-to-End AI Lifecycle: 요구사항 수집 -> 데이터 확보 -> 실험 -> 배포 -> 피드백의 수리적 루프
- Data Engineering for ML: 대용량 수치 데이터의 물리적 수집, 적재, 변환(ETL) 공정
- Feature Engineering Mechanics: 원시 수치를 지능에 유리한 물리 변수로 수리 가공하는 기제
- Data Labeling Dynamics: 정답(Label) 수치의 물리적 생성 및 수리적 검수 자동화
- Data Versioning: 데이터셋의 변화를 수치적으로 추적하여 하드웨어 실험의 재현성 확보
Out-of-Scope
- 특정 모델 배포 후의 실시간 서빙 및 트래픽 관리 (11-04-02 MSP 영역에서 분담)
- 학습된 모델의 수리적 알고리즘 자체 (11-01/02/03 영역에서 분담)
Boundaries
- ALD vs. Traditional Big Data: 일반 빅데이터 공학이 '데이터의 물리적 이동'에 집중한다면, ALD는 '모델의 수리적 성능을 극대화하기 위한 데이터의 물리적 선별 및 가공'이라는 목적성에 집중하여 구분합니다.
3. Counterexample
- 단순히 "데이터를 많이 모으기"라 설명하는 것은 ALD 학습이 아닙니다. 왜 데이터의 편향(Bias) 수치가 물리적으로 한쪽에 쏠리면 모델이 수리적으로 타락하게 되는지 증명할 수 있어야 하며, **데이터 드리프트(Drift)**가 발생했을 때 하드웨어 수집 파이프라인의 어느 수치 단계를 물리적으로 재조정해야 하는지 논증하지 못한다면 AI 생애주기의 본질을 이해하지 못한 것입니다.
4. Prerequisites
- Machine Learning Basics (Basic): 11-01-01의 피처 및 라벨 데이터 수치 이해가 필수입니다.
- Data & Information Management (Basic): 06-XX-XX의 SQL 및 데이터 저장 물리 기초 이해가 필수입니다.
5. Learning Map
- Information Supply Chain: 원시 수치가 하이엔드 지능으로 물리 변환되는 거대한 흐름을 이해합니다.
- Quality Governance: 지저분한 물리 데이터 속에 숨겨진 수리적 노이즈를 수치적으로 제거합니다.
- Reproducible Experiment: 어떤 시점의 데이터로도 동일한 수리 모델을 물리 재현하는 기술을 익힙니다.
- Lifecycle Orchestration: 데이터의 탄생부터 모델의 은퇴까지 전 과정을 수치적으로 통제하는 하이엔드 거버넌스를 완성합니다.
6. Learning Topics
Basic
Core: 데이터 파이프라인과 수집 물리 (Collection Physics)
- Why to Learn: 쓰레기 데이터(Garbage In)를 넣어 지능을 수리적으로 낭비하는 물리적 비효율을 막기 위해서입니다.
- What to Learn:
- Ingestion strategies: 실시간(Streaming) vs 배치(Batch) 수치 수집의 물리적 차이
- Data lake vs Warehouse: 지능형 자산을 담는 수리적 그릇의 물리적 용도 구분
- Basic cleansing: 결측치 및 이상 수치를 수리적으로 보정하는 물리 공정
- How to Learn:
Pandas나Spark를 사용하여 100만 건의 하드웨어 로그를 모델이 학습 가능한 수치 행렬로 물리 정제하는 실습- 데이터 유실 발생 시 모델의 F1-score 수치가 물리적으로 어떻게 추락하는지 수치 대조 훈련
- Implement: 데이터 수집과 기초 정제를 자동화한 물리 스크립트
Data_Pipeline_Alpha
Recommended
Core: 피처 공학과 저장 메커니즘 (Feature Dynamics)
- Why to Learn: 하드웨어가 연산하기 가장 좋은 수리적 최적 좌표(Feature)를 미리 계산하여 저장하기 위함입니다.
- What to Learn:
- Feature Engineering: 원시 수치를 결합하여 새로운 물리적 의미(BMI 등)를 수리 생성
- Feature Store (Hopsworks, Feast): 학습과 서빙 시 동일한 수치 피처를 물리적으로 공유하는 기제
- Data Transformation: 정규화, 스케일링 등 수치 범위를 하드웨어 최적화 수위로 물리 조정
- How to Learn:
- 수동으로 계산하던 피처를 피처 스토어에 등록하고, 여러 팀원이 수리적으로 재사용하는 물리적 협업 과정 확인 실습
- **데이터 누수(Leakage)**가 발생하는 수리적 함정(미래 데이터를 학습에 사용 등)을 물리적으로 차단하는 훈련
- Implement: 공통 피처 수치를 추출하고 저장소에 물리 푸시하는
Feature_Extractor_Pro
Practical
Core: 모델 실험 관리와 버전 제어 (Experiment Mechanics)
- Why to Learn: 수백 번의 수치 실험 중 가장 하이엔드 성능을 낸 모델과 데이터를 물리적으로 추적하기 위해서입니다.
- What to Learn:
- MLflow / DVC: 모델 가중치와 데이터셋 수치를 물리적으로 버저닝하는 도구
- Metadata Logging: 학습률, 배치 수치, 손실 곡선 등 실험의 수리적 발자취 기록
- Reproducibility: 동일한 시드(Seed)와 데이터를 통해 물리적으로 동일한 수치를 도출하는 법
- How to Learn:
MLflow서버를 띄우고, 하이퍼파라미터 수치가 바뀔 때마다 모델의 성능 지표가 물리적으로 기록되는 과정 확인 실습- 과거 버전의 모델 수치를 즉각 물리 호출(Rollback)하여 하드웨어 예측을 수행하는 복구 훈련
- Implement: 실험 수치를 자동으로 로깅하고 시각화하는
Experiment_Tracker
Advanced
Core: 데이터 거버넌스와 리니지 (Governance Theory)
- Why to Learn: 수조 개의 수치가 어디서 와서 어디로 흘러가는지 물리적으로 증명하여 AI의 수리적 신뢰도를 확보하기 위함입니다.
- What to Learn:
- Data Lineage: 데이터의 물리적 근원부터 최종 모델 수치까지의 수리적 족보 추적
- Regulatory Compliance: 데이터 활용 시 수리적 윤리와 물리적 보안(GDPR 등) 준수
- Automated Data Validation: 새로운 수치가 들어올 때마다 물리적 분포를 자동 수리 검증하는 기제
- How to Learn:
- 데이터 리니지 도구를 사용하여, 특정 수치 오류가 발생했을 때 물리적 원류 파일이 무엇인지 역추적하는 실습
- 통계적 분포 수치( 등)를 자동 체크하여 이상한 물리 데이터가 유입될 시 파이프라인을 수리 정지시키는 설계 훈련
- Implement: 유입 데이터의 수치적 분포 변화를 감지하는
Lineage_Watcher
7. Terminology
8. References
Primary
- [P4] DS-BoK (EDSF) - Data Engineering / Data Supply Chain — Definition of engineering skills.
- [P5] SFIA v9 - Data Engineering (DENG) / Data Management (DATM) — Professional competency levels.
Secondary
- [Designing Data-Intensive Applications] Martin Kleppmann — Foundation for scalable ALD systems.
- [Data Engineering with Python] Paul Crickard — Practical pipeline implementation.
Industry
- [Google Cloud: Architects of Modern Data Engineering] — Reference architectures.
- [TFX (TensorFlow Extended): Data Validation and Lineage] — Production-grade dynamics.
9. Final Checklist
Primary
- '데이터 파이프라인'의 물리적 지연()이 모델의 '학습 수치 신선도'에 미치는 수리적 영향을 설명 가능한가? (P4)
- '피처 스토어'를 통한 수치 재사용이 전체 하드웨어 연산 비용을 수리적으로 얼마나 절감하는지 기술할 수 있는 가? (P4)
Secondary
- 'DVC'를 통한 데이터 버전 관리가 왜 '실험 재현성' 수치를 물리적으로 보장하는 필수 요소인지 소통 가능한가?
- Data Cleansing 과정에서 수치 이상치를 잘못 제거했을 때 모델의 물리적 '예외 대응력'이 어떻게 붕괴하는지 논증할 수 있는 가?
Industry
- 실무 파이프라인 설계 시, '실시간 수집'과 '배치 수집'의 수리적 임계 비용 수치를 물리적으로 제안할 수 있는 가? (SFIA)
- GDPR과 같은 물리적 데이터 규제가 모델의 수리적 '망각()' 프로세스에 미치는 영향을 분석할 수 있는 가?