AI Lifecycle & Data Engineering

1. Overview

AI 생애주기 및 데이터 공학(AI Lifecycle & Data Engineering, ALD)은 단순한 모델 학습을 넘어, 원시 데이터를 하이엔드 지능형 자산으로 물리 변환하고 모델의 운영 전 과정을 수리적으로 설계하는 '시스템적 인텔리전스 물리학'입니다.

학습자는 모델의 수리적 성능을 결정짓는 데이터 파이프라인의 물리적 구축과, 대규모 라벨링 데이터의 수치적 정합성을 유지하는 품질 제어(Quality Control) 수순을 배웁니다. 특히, 학습에 사용된 피처 수치를 중앙에서 관리하여 물리적 일관성을 보장하는 **피처 스토어(Feature Store)**의 역할을 익힙니다. 이를 통해 '운이 좋아서 잘 돌아가는 모델'이 아닌, 데이터 공급망 전체를 수치적으로 지배하는 하이엔드 AI 아키텍처 거버넌스 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

End-to-End AI Lifecycle: 요구사항 수집 -> 데이터 확보 -> 실험 -> 배포 -> 피드백의 수리적 루프
Data Engineering for ML: 대용량 수치 데이터의 물리적 수집, 적재, 변환(ETL) 공정
Feature Engineering Mechanics: 원시 수치를 지능에 유리한 물리 변수로 수리 가공하는 기제
Data Labeling Dynamics: 정답(Label) 수치의 물리적 생성 및 수리적 검수 자동화
Data Versioning: 데이터셋의 변화를 수치적으로 추적하여 하드웨어 실험의 재현성 확보

Out-of-Scope

특정 모델 배포 후의 실시간 서빙 및 트래픽 관리 (11-04-02 MSP 영역에서 분담)
학습된 모델의 수리적 알고리즘 자체 (11-01/02/03 영역에서 분담)

Boundaries

ALD vs. Traditional Big Data: 일반 빅데이터 공학이 '데이터의 물리적 이동'에 집중한다면, ALD는 '모델의 수리적 성능을 극대화하기 위한 데이터의 물리적 선별 및 가공'이라는 목적성에 집중하여 구분합니다.

3. Counterexample

단순히 "데이터를 많이 모으기"라 설명하는 것은 ALD 학습이 아닙니다. 왜 데이터의 편향(Bias) 수치가 물리적으로 한쪽에 쏠리면 모델이 수리적으로 타락하게 되는지 증명할 수 있어야 하며, **데이터 드리프트(Drift)**가 발생했을 때 하드웨어 수집 파이프라인의 어느 수치 단계를 물리적으로 재조정해야 하는지 논증하지 못한다면 AI 생애주기의 본질을 이해하지 못한 것입니다.

4. Prerequisites

Machine Learning Basics (Basic): 11-01-01의 피처 및 라벨 데이터 수치 이해가 필수입니다.
Data & Information Management (Basic): 06-XX-XX의 SQL 및 데이터 저장 물리 기초 이해가 필수입니다.

5. Learning Map

Information Supply Chain: 원시 수치가 하이엔드 지능으로 물리 변환되는 거대한 흐름을 이해합니다.
Quality Governance: 지저분한 물리 데이터 속에 숨겨진 수리적 노이즈를 수치적으로 제거합니다.
Reproducible Experiment: 어떤 시점의 데이터로도 동일한 수리 모델을 물리 재현하는 기술을 익힙니다.
Lifecycle Orchestration: 데이터의 탄생부터 모델의 은퇴까지 전 과정을 수치적으로 통제하는 하이엔드 거버넌스를 완성합니다.

6. Learning Topics

Basic

Core: 데이터 파이프라인과 수집 물리 (Collection Physics)

Why to Learn: 쓰레기 데이터(Garbage In)를 넣어 지능을 수리적으로 낭비하는 물리적 비효율을 막기 위해서입니다.
What to Learn:
- Ingestion strategies: 실시간(Streaming) vs 배치(Batch) 수치 수집의 물리적 차이
- Data lake vs Warehouse: 지능형 자산을 담는 수리적 그릇의 물리적 용도 구분
- Basic cleansing: 결측치 및 이상 수치를 수리적으로 보정하는 물리 공정
How to Learn:
- Pandas나 Spark를 사용하여 100만 건의 하드웨어 로그를 모델이 학습 가능한 수치 행렬로 물리 정제하는 실습
- 데이터 유실 발생 시 모델의 F1-score 수치가 물리적으로 어떻게 추락하는지 수치 대조 훈련
Implement: 데이터 수집과 기초 정제를 자동화한 물리 스크립트 Data_Pipeline_Alpha

Why to Learn: 하드웨어가 연산하기 가장 좋은 수리적 최적 좌표(Feature)를 미리 계산하여 저장하기 위함입니다.
What to Learn:
- Feature Engineering: 원시 수치를 결합하여 새로운 물리적 의미(BMI 등)를 수리 생성
- Feature Store (Hopsworks, Feast): 학습과 서빙 시 동일한 수치 피처를 물리적으로 공유하는 기제
- Data Transformation: 정규화, 스케일링 등 수치 범위를 하드웨어 최적화 수위로 물리 조정
How to Learn:
- 수동으로 계산하던 피처를 피처 스토어에 등록하고, 여러 팀원이 수리적으로 재사용하는 물리적 협업 과정 확인 실습
- **데이터 누수(Leakage)**가 발생하는 수리적 함정(미래 데이터를 학습에 사용 등)을 물리적으로 차단하는 훈련
Implement: 공통 피처 수치를 추출하고 저장소에 물리 푸시하는 Feature_Extractor_Pro

Practical

Core: 모델 실험 관리와 버전 제어 (Experiment Mechanics)

Why to Learn: 수백 번의 수치 실험 중 가장 하이엔드 성능을 낸 모델과 데이터를 물리적으로 추적하기 위해서입니다.
What to Learn:
- MLflow / DVC: 모델 가중치와 데이터셋 수치를 물리적으로 버저닝하는 도구
- Metadata Logging: 학습률, 배치 수치, 손실 곡선 등 실험의 수리적 발자취 기록
- Reproducibility: 동일한 시드(Seed)와 데이터를 통해 물리적으로 동일한 수치를 도출하는 법
How to Learn:
- MLflow 서버를 띄우고, 하이퍼파라미터 수치가 바뀔 때마다 모델의 성능 지표가 물리적으로 기록되는 과정 확인 실습
- 과거 버전의 모델 수치를 즉각 물리 호출(Rollback)하여 하드웨어 예측을 수행하는 복구 훈련
Implement: 실험 수치를 자동으로 로깅하고 시각화하는 Experiment_Tracker

Advanced

Core: 데이터 거버넌스와 리니지 (Governance Theory)

Why to Learn: 수조 개의 수치가 어디서 와서 어디로 흘러가는지 물리적으로 증명하여 AI의 수리적 신뢰도를 확보하기 위함입니다.
What to Learn:
- Data Lineage: 데이터의 물리적 근원부터 최종 모델 수치까지의 수리적 족보 추적
- Regulatory Compliance: 데이터 활용 시 수리적 윤리와 물리적 보안(GDPR 등) 준수
- Automated Data Validation: 새로운 수치가 들어올 때마다 물리적 분포를 자동 수리 검증하는 기제
How to Learn:
- 데이터 리니지 도구를 사용하여, 특정 수치 오류가 발생했을 때 물리적 원류 파일이 무엇인지 역추적하는 실습
- 통계적 분포 수치( $P-value$ 등)를 자동 체크하여 이상한 물리 데이터가 유입될 시 파이프라인을 수리 정지시키는 설계 훈련
Implement: 유입 데이터의 수치적 분포 변화를 감지하는 Lineage_Watcher

7. Terminology

Term (EN / ko, abbr)	1문장 정의	단계(기본/권장/실무/심화)	역할/맥락	관련 개념	유사/대비/함께 사용	오해 포인트	Evidence(Primary/Secondary/Industry)	Flags(core)
ETL	원시 데이터에서 지능 정보를 추출(Extract)하고 변환(Transform)하여 저장소에 적재(Load)하는 물리 공정입니다.	기본	기초 공급망	Pipeline / Sync	ELT	데이터 이동의 수리적 기본임	P4:DSBOK	core
Feature Store	모델의 학습과 운영 시 필요한 공통 수치 피처들을 중앙에서 물리적으로 관리하고 배포하는 하드웨어 저장소입니다.	추천	핵심 인프라	Latent / Reuse	Database	단순 DB보다 ML 지향적임	Industry	core
Data Lineage	데이터셋의 물리적 수명 주기 전체를 시각화하여 수리적 근원과 변형 과정을 수치적으로 기록한 족보입니다.	심화	품질 관리	Origin / Compliance	Metadata	오류 추적의 핵심 수단임	P4:DSBOK	core
DVC	데이터와 모델 파일의 물리적 실체는 그대로 둔 채, 메타데이터 수치만으로 Git처럼 버전 관리하는 도구입니다.	실무	버전 제어	Git / Storage	Metadata	소스 코드 버전과는 별개임	Industry	core

8. References

Primary

[P4] DS-BoK (EDSF) - Data Engineering / Data Supply Chain — Definition of engineering skills.
[P5] SFIA v9 - Data Engineering (DENG) / Data Management (DATM) — Professional competency levels.

Secondary

[Designing Data-Intensive Applications] Martin Kleppmann — Foundation for scalable ALD systems.
[Data Engineering with Python] Paul Crickard — Practical pipeline implementation.

Industry

[Google Cloud: Architects of Modern Data Engineering] — Reference architectures.
[TFX (TensorFlow Extended): Data Validation and Lineage] — Production-grade dynamics.

9. Final Checklist

Primary

'데이터 파이프라인'의 물리적 지연( $Latency$ )이 모델의 '학습 수치 신선도'에 미치는 수리적 영향을 설명 가능한가? (P4)
'피처 스토어'를 통한 수치 재사용이 전체 하드웨어 연산 비용을 수리적으로 얼마나 절감하는지 기술할 수 있는 가? (P4)

Secondary

'DVC'를 통한 데이터 버전 관리가 왜 '실험 재현성' 수치를 물리적으로 보장하는 필수 요소인지 소통 가능한가?
Data Cleansing 과정에서 수치 이상치를 잘못 제거했을 때 모델의 물리적 '예외 대응력'이 어떻게 붕괴하는지 논증할 수 있는 가?

Industry

실무 파이프라인 설계 시, '실시간 수집'과 '배치 수집'의 수리적 임계 비용 수치를 물리적으로 제안할 수 있는 가? (SFIA)
GDPR과 같은 물리적 데이터 규제가 모델의 수리적 '망각( $Deletion$ )' 프로세스에 미치는 영향을 분석할 수 있는 가?

AI Lifecycle & Data Engineering

1. Overview

2. Scope & Boundaries

In-Scope

Out-of-Scope

Boundaries

3. Counterexample

4. Prerequisites

5. Learning Map

6. Learning Topics

Basic

Core: 데이터 파이프라인과 수집 물리 (Collection Physics)

Recommended

Core: 피처 공학과 저장 메커니즘 (Feature Dynamics)

Practical

Core: 모델 실험 관리와 버전 제어 (Experiment Mechanics)

Advanced

Core: 데이터 거버넌스와 리니지 (Governance Theory)

7. Terminology

8. References

Primary

Secondary

Industry

9. Final Checklist

Primary

Secondary

Industry

Concepts & Tags