Supervised Learning Physics
정답이 주어진 데이터 쌍을 통해 예측 함수를 정교하게 다듬고, 선형 회귀부터 앙상블 기법까지 현대 비즈니스 예측의 핵심이 되는 지도 학습의 수리적 알고리즘과 물리적 응용을 다룹니다.
sys.entry
M
Me
hyunyoun's Blog
posts6 min read
1. Overview
지도 학습 물리학(Supervised Learning Physics, SLP)은 문제()와 정답()의 명확한 인과 관계를 수리적으로 모델링하여, 미래의 새로운 문제에 대해 물리적으로 가장 개연성 높은 답을 내놓도록 기계를 조련하는 '정답 지향적 지능 물리학'입니다.
학습자는 연속적인 물리 값을 예측하는 **회귀(Regression)**와 불연속적인 범주를 나누는 **분류(Classification)**의 수리적 수순을 배웁니다. 특히, 여러 개의 약한 모델을 물리적으로 결합하여 강력한 예측력을 확보하는 앙상블(Ensemble) 기법의 수치적 증폭 원리를 익힙니다. 이를 통해 금융 사기 탐지부터 가격 예측까지 현실의 비즈니스 난제를 수리적으로 해결하는 하이엔드 예측 거버넌스 역량을 확보합니다.
2. Scope & Boundaries
In-Scope
- Linear Models: 선형 회귀 및 로지스틱 회귀의 수리적 가중치() 결정 원리
- Tree-based Methods: 의사결정 나무의 수치적 정보 이득(Information Gain) 계산 및 물리적 분할
- Ensemble Strategies: Bagging(Random Forest)과 Boosting(XGBoost, LightGBM)의 수리적 결합 방식
- Kernel Methods: SVM과 같이 차원을 물리적으로 변환하여 수치 분리가 불가능한 데이터를 나누는 기법
- Model Evaluation: 회귀(MSE, )와 분류(F1-score, AUC)를 위한 전문 수리 지표
Out-of-Scope
- 정답 레이블이 없는 환경에서의 패턴 발견 (11-01-03 ULD 영역에서 분담)
- 신경망 기반의 복잡한 비선형 레이어 연산 (11-02-XX 영역에서 분담)
Boundaries
- SLP vs. Regression Analysis: 통계학적 회귀 분석이 '인원 수치의 인과성 증명'에 집중한다면, SLP의 지도 학습은 '하드웨어가 실시간으로 다음 값을 얼마나 정확히 예측()하는가'라는 물리적 결과물에 집중하여 구분합니다.
3. Counterexample
- 단순히 "정답 데이터를 많이 넣기"라 설명하는 것은 SLP 학습이 아닙니다. 왜 **결정 트리(Decision Tree)**는 깊이가 수치적으로 깊어질수록 물리적 세밀함은 늘지만 '일반화 성능'은 수리적으로 추락하는지 증명할 수 있어야 하며, **그래디언트 부스팅(Boosting)**이 이전 모델의 '수리적 잔차()'를 물리적으로 어떻게 흡수하여 오차를 0으로 수렴시키는지 논증하지 못한다면 지도 학습의 정수를 이해하지 못한 것입니다.
4. Prerequisites
- Machine Learning Basics (Basic): 11-01-01의 훈련/테스트 분리 및 오버피팅 개념 이해가 필수입니다.
- Optimization Logic & Gradient Descent (Recommended): 11-01-04의 가중치 수렴 수순 이해가 권장됩니다.
5. Learning Map
- Mapping Relationships: 한 점의 좌표가 정답으로 향하는 수리적 선(Line)을 찾는 것부터 시작합니다.
- Branching Logic: 예/아니오의 물리적 선택을 수치적으로 반복하여 복잡한 세상을 분류합니다.
- Strength in Numbers: 약한 지능들을 물리적으로 중첩시켜, 단일 모델의 수리적 한계를 돌파합니다.
- Predictive Governance: 과거의 정답 데이터를 하이엔드 예측 자산으로 전환하여 미래의 물리적 불확실성을 수치적으로 통제합니다.
6. Learning Topics
Basic
Core: 선형 회귀와 분류의 가중치 (Linear Physics)
- Why to Learn: 현상의 가장 단순한 수리적 규칙(직선)을 찾아내어 하드웨어의 예측 성능을 초기화하기 위해서입니다.
- What to Learn:
- Simple & Multiple Regression: 독립 변수들의 물리적 합산과 기울기 수치 도출
- Logistic Regression: 과 사이의 물리적 확률 수치를 시그모이드()로 변환하는 법
- Least Squares Method: 예측값과 실제값의 수리적 거리 제곱합을 물리적으로 최소화하는 기제
- How to Learn:
- 주택 평수와 가격 데이터를 넣고, 하드웨어가 "평당 가격"이라는 수리적 가중치를 스스로 찾아내는 실습
- 합격/불합격 분류 시 임계값()을 에서 로 수치 조정할 때의 물리적 결과물 변화 관찰
- Implement: 경사 하강법 없이 수학적 공식(Normal Equation)으로 즉각 해를 구하는
EasyLinearPredictor
Recommended
Core: 트리 모델과 정보의 엔트로피 (Tree Dynamics)
- Why to Learn: 사람이 내리는 "조건문" 의사결정을 물리적으로 자동화하고 가장 효율적인 질문 수순을 찾기 위함입니다.
- What to Learn:
- Gini Impurity & Entropy: 데이터의 혼잡도를 수치로 계산하여 가장 잘 나누는 기준점 탐색
- Pruning: 나무가 너무 자라 수리적 오버피팅을 일으키기 전 물리적으로 가지를 치는 법
- Support Vector Machine (SVM): 데이터들 사이의 물리적 여백(Margin)을 최대화하여 수리적 경계를 긋는 법
- How to Learn:
- 타이타닉 데이터를 사용하여 "성별"이 "나이"보다 왜 먼저 수리적으로 분기되어야 하는지 지니 계수 대조 실습
- 차원 공간의 점들을 고차원으로 물리 맵핑하여 수리적으로는 나눌 수 없던 데이터를 선형 분리하는 훈련
- Implement: 데이터의 불순도를 계산하고 최적의 분할 수치를 뱉는 기초
DecisionEngine
Practical
Core: 앙상블 기법의 수치적 증폭 (Ensemble Mechanics)
- Why to Learn: 개별 모델이 가진 수리적 편향을 물리적으로 상쇄하여, 업계 하이엔드 수준의 성능을 도출하기 위해서입니다.
- What to Learn:
- Random Forest: 독립적인 나무들의 투표(Voting)를 통한 수치적 안정성 확보
- Gradient Boosting (GBM): 오차를 물리적으로 다음 모델의 입력으로 넣어 수리적으로 보정하는 기법
- Feature Importance: 앙상블 내부에서 어떤 하드웨어 변수가 결정에 가장 기여하는지 수치적 기여도 산출
- How to Learn:
Random Forest에서 나무의 개수()를 10개에서 100개로 수치화하여 늘렸을 때의 물리적 수렴 속도 확인 실습XGBoost나LightGBM을 사용하여, 수백만 건의 수평적 데이터를 하드웨어 메모리에 최적화하여 물리 학습시키는 훈련
- Implement: 여러 모델의 예측값을 가중 합산하여 최종 결과를 도출하는
EnsembleAggregator
Advanced
Core: 하이퍼파라미터 최적화와 파이프라인 (Auto-Tuning Ops)
- Why to Learn: 수천 개의 수치 조합 속에서 '가장 정교한 예측 장치'를 사람의 개입 없이 물리적으로 완성하기 위함입니다.
- What to Learn:
- Grid & Random Search: 하이퍼파라미터 공간을 수리적으로 전수 조사하거나 무작위 추출하는 법
- Bayesian Optimization: 이전 시도의 수리적 성과를 바탕으로 다음 탐색할 수치를 물리적으로 결정하는 기능
- Imbalanced Data Handling: 희귀한 정답(암 진단 등) 수치를 모델이 무시하지 않게 만드는 물리적 복제(SMOTE 등) 전략
- How to Learn:
Optuna라이브러리를 사용하여, 복잡한 부스팅 모델의 최적 학습 수치를 수리적으로 자동 탐색하는 실습- 모델의 훈련 전 과정을 하나의 물리적 파이프라인으로 묶어 데이터 오염()을 수치 차단하는 로직 설계
- Implement: 데이터 전처리부터 튜닝까지 수리적 전 과정을 자동화한
AutoML_Pipeline
7. Terminology
8. References
Primary
- [P4] DS-BoK (EDSF) - Machine Learning / Supervised Learning — Definition of predictive models.
- [P1] CS2023 - Artificial Intelligence (AI) - Machine Learning — Theoretical foundations.
Secondary
- [The Elements of Statistical Learning] Trevor Hastie — The math-heavy reference for SLP.
- [Introduction to Machine Learning with Python] Andreas Müller — The practical Scikit-learn manual.
Industry
- [XGBoost Documentation: Introduction to Boosted Trees] — Technical scalability engineering.
- [Microsoft LightGBM: Documentation and Tutorials] — Efficient implementation for large scale.
9. Final Checklist
Primary
- '선형 회귀'의 수리적 수렴과 '가중치()'의 물리적 의미를 회귀 계수 관점에서 설명 가능한가? (P4)
- '의사결정 나무'의 물리적 깊이가 깊어질 때 '분산(Variance)' 수치가 어떻게 수리적으로 치솟는지 기술할 수 있는 가? (P1)
Secondary
- '배깅()'과 '부스팅()'의 수리적 바이어스 제거 방식의 물리적 차이를 소통 가능한가?
- SVM에서 '커널 트릭'이 연산 하중을 물리적으로 늘리지 않으면서 수리적 고차원 분리를 수행하는 기제를 논증할 수 있는 가?
Industry
- 실제 비즈니스 도메인(핀테크 등)에서 '정밀도'와 '재현율' 중 어떤 수치가 물리적 비용 측면에서 더 중요한지 제안할 수 있는 가? (SFIA)
- Gradient Boosting 모델의 'Early Stopping' 수치를 결정하여 하드웨어 자원과 학습 성능의 평형을 분석할 수 있는 가?