콘텐츠로 바로가기

Machine Learning Basics

기계가 명시적인 프로그래밍 없이 데이터로부터 수리적 패턴을 찾아내고 스스로 성능을 개선하는 기계 학습의 물리적 근간과 핵심 패러다임을 다룹니다.

sys.entry
M

Me

hyunyoun's Blog

posts6 min read

1. Overview

기계 학습 기초(Machine Learning Basics, MLB)는 컴퓨터가 인간의 직관을 수치적 알고리즘으로 변환하여, 새로운 데이터에 대해 물리적으로 타당한 추론을 내리게 만드는 '예측적 연산 물리학'입니다.

학습자는 데이터의 분포에서 수리적 규칙을 뽑아내는 **귀납적 추론(Inductive Reasoning)**의 원리와, 학습 데이터에만 너무 매몰되지 않고 미래를 맞히는 **일반화(Generalization)**의 물리적 가치를 배웁니다. 특히, 모델의 복잡도와 오차 사이의 수치적 평형점인 **편향-분산 트레이드오프(Bias-Variance Trade-off)**를 익힙니다. 이를 통해 단순한 정적 코드를 넘어, 데이터의 흐름에 따라 스스로 진화하는 하이엔드 지능형 시스템의 거버넌스 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

  • Core Paradigms: 지도 학습, 비지도 학습, 강화 학습의 수리적 정의 및 물리적 구분
  • Learning Mechanics: 손실 함수(Loss Function)를 통한 성능 수치화 및 물리적 최적화 수순
  • Generalization Theory: 오버피팅과 언더피팅의 수치적 징후 및 물리적 환경 제어
  • Performance Metrics: 정확도, 정밀도, 재현율 등 모델의 물리적 효율을 측정하는 수리 지표
  • Dataset Splitting: 훈련, 검증, 테스트 데이터 셋의 물리적 고립 및 수리적 검증 전략

Out-of-Scope

  • 미적분학 및 선형대수학 자체의 수학적 기초 증명 (02-06-XX 영역에서 분담)
  • 딥러닝(신경망) 특유의 하드웨어 가속 기술 (11-02-XX 영역에서 분담)

Boundaries

  • MLB vs. Data Engineering: Data Engineering(06-XX-XX)이 '데이터를 이동시키고 보관하는 물리 파이프라인'에 집중한다면, MLB는 '그 데이터를 통해 새로운 수리적 함수를 생성하는 학습 과정'에 집중하여 구분합니다.

3. Counterexample

  • 단순히 "데이터가 많으면 좋다"라 설명하는 것은 MLB 학습이 아닙니다. 왜 데이터의 수치적 양(nn)이 늘어나도 **특성 지향성(Feature Orientation)**이 잘못되면 물리적으로 성능이 제자리걸음인지 증명할 수 있어야 하며, **오버피팅(Overfitting)**된 모델이 학습 중에는 오차가 0으로 수렴하더라도 실제 하드웨어 운영 환경에서는 왜 '무작위 예측'보다 위험한 물리적 재앙이 되는지 논증하지 못한다면 기계 학습의 본질을 이해하지 못한 것입니다.

4. Prerequisites

  • Linear Algebra & Vector Calculus (Basic): 02-06-XX의 벡터, 행렬 연산 및 미분 이해가 필수입니다.
  • Data Structures & Algorithms (Basic): 04-XX-XX의 배열 처리 및 탐색 알고리즘 기초 이해가 필수입니다.

5. Learning Map

  1. The Inductive Leap: 명시적인 if-else 대신 데이터의 수치적 패턴을 스스로 찾는 물리 논리를 이해합니다.
  2. Measurement of Error: 모델이 얼마나 틀리고 있는지 수치로 정량화(Loss)하는 법을 익힙니다.
  3. The Balance Point: 고집(Bias)과 변덕(Variance) 사이의 수리적 중도를 찾는 전략을 배웁니다.
  4. Adaptive Intelligence: 정적 로직을 동적 지능으로 전환하여, 하드웨어가 스스로 문제를 해결하게 만드는 하이엔드 아키텍처를 완성합니다.

6. Learning Topics

Basic

Core: 기계 학습의 정의와 학습 수순 (Learning Physics)

  • Why to Learn: 복잡한 규칙을 사람이 일일이 코딩하는 물리적 한계를 극복하고 자동화하기 위해서입니다.
  • What to Learn:
    • Sample, Feature, Label: 데이터의 물리적 구성 요소와 수치화 방식
    • Parametric vs Non-parametric: 모델이 기억해야 할 수리적 변수의 성격
    • The Learning Process: 데이터 입력 -> 예측 -> 오차 계산 -> 파라미터 업데이트의 물리 루프
  • How to Learn:
    • Scikit-learn의 '꽃잎 데이터(Iris)'를 사용하여, 하드웨어가 꽃의 종류를 수리적으로 구분해 내는 현상 확인 실습
    • 학습률(LearningLearning RateRate) 수치를 바꿔보며, 모델이 정답에 도달하는 물리적 속도와 안정성 대조 훈련
  • Implement: 데이터의 평균과 분산을 수치화하여 표준화(Normalization)하는 기초 DataScaler

Core: 일반화와 성능 지표 (Generalization Dynamics)

  • Why to Learn: 내가 가진 데이터뿐만 아니라, "세상의 다른 모든 데이터"에도 잘 맞는 모델을 만들기 위함입니다.
  • What to Learn:
    • Overfitting vs Underfitting: 학습 데이터에 과도하게 물리 동화되는 현상과 수리적 부족함
    • Cross-Validation: 데이터를 물리적으로 쪼개어 수리적 신뢰도를 검증하는 kfoldk-fold 전략
    • Metrics (Precision/Recall): 단순히 '정확도' 수치 하나로 모델을 평가할 때 발생하는 물리적 기만 방어
  • How to Learn:
    • 모델의 복잡도를 수치적으로 높여가며 **학습 곡선(Learning Curve)**이 벌어지는 물리적 간격 관찰 실습
    • 불균형 데이터(ImbalanceImbalance) 환경에서 정확도가 99%임에도 불구하고 실제로는 오류를 못 잡는 수리적 역설 분석
  • Implement: kk개의 조각으로 데이터를 나누어 모델을 교차 검증하는 KFold_Validator

Practical

Core: 특성 공학 및 차원의 저주 (Feature Physics)

  • Why to Learn: 쓰레기 데이터(Garbage In)를 넣어 쓰레기 예측(Garbage Out)이 나오는 하드웨어 낭비를 막기 위해서입니다.
  • What to Learn:
    • Feature Selection: 수천 개의 수치 데이터 중 예측에 물리적으로 기여하는 핵심만 고르기
    • Curse of Dimensionality: 차원이 수치적으로 높아질수록 하드웨어가 감당해야 할 공간이 기하급수적으로 비는 현상
    • Scaling & Encoding: 문자를 숫자로, 큰 수를 작은 범위로 물리 변환하여 계산 하중을 줄이는 법
  • How to Learn:
    • PCA(주성분 분석)를 사용하여 수많은 하드웨어 센서 수치를 핵심 변수 2개로 물리 압축해 시각화하는 실습
    • '원-핫 인코딩(OnehotOne-hot EncodingEncoding)'을 통해 카테고리 정보가 수리적 거리를 갖게 만드는 과정 연구
  • Implement: 유효하지 않은 수치나 결측치를 물리적으로 채워주는 SmartImputer

Advanced

Core: 학습 이론과 확률적 추론 (Theoretical Foundations)

  • Why to Learn: 모델이 잘 되는 이유를 "운"이 아닌 "수학적 필연"으로 증명하여 하드웨어 안정성을 확보하기 위함입니다.
  • What to Learn:
    • PAC Learning: 수리적으로 "대락적으로 맞다"고 보증할 수 있는 학습의 한계 수치
    • Bayesian ML: 사전 지식을 바탕으로 새로운 데이터 수치를 보정하며 확률을 업데이트하는 물리 수순
    • Regularization (L1/L2): 가중치의 물리적 크기를 수리 제약하여 모델을 강제로 단순하게 유지하는 기제
  • How to Learn:
    • 라쏘(Lasso) 규제를 적용했을 때, 가중치 수치가 0이 되어 물리적인 '특성 선택'이 일어나는 현상 분석
    • '최대 우도 추정(MLEMLE)'을 통해 데이터 분포로부터 가장 적합한 수리 파라미터를 유도하는 과정 유도 실습
  • Implement: 규제 수치(λ\lambda)에 따라 모델의 가중치를 물리적으로 억제하는 RegularizedEngine

7. Terminology

Term (EN / ko, abbr) 1문장 정의 단계(기본/권장/실무/심화) 역할/맥락 관련 개념 유사/대비/함께 사용 오해 포인트 Evidence(Primary/Secondary/Industry) Flags(core)
Generalization 학습하지 않은 새로운 데이터에 대해서도 올바른 수리적 결과를 내놓는 모델의 물리적 능력입니다. 기본 평가 척도 Overfitting Inference 정확도와는 다른 차원임 P4:DSBOK core
Feature 모델이 학습을 수행하기 위해 사용하는 입력 데이터의 수치화된 물리적 특성 변수입니다. 기본 입력 원천 Attribute / Vector Label 모든 데이터가 Feature는 아님 P4:DSBOK core
Inductive Bias 모델이 학습 과정에서 갖게 되는, 특정 수리적 해를 선호하게 만드는 물리적/논리적 가치관입니다. 심화 알고리즘 성격 Constraint Variance 편향(Bias)과는 다른 철학적 개념 P1:CS2023 core
Loss Function 모델의 예측값과 실제 정답 사이의 수리적 격차를 측정하여 물리적 페널티를 부여하는 함수입니다. 기본 최적화 기준 Objective / Cost Error 낮을수록 물리적으로 우수함 P4:DSBOK core

8. References

Primary

Secondary

  • [Pattern Recognition and Machine Learning] Christopher Bishop — The Bayesian perspective.
  • [Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow] Aurélien Géron — Practical manual.

Industry

  • [Google Machine Learning Crash Course] — Industry-standard terminology.
  • [Scikit-learn Documentation: Supervised Learning] — Implementation reference.

9. Final Checklist

Primary

  • '지도 습'과 '비지도 학습'의 수리적 차이와 각 상황별 물리적 데이터 요구사항을 설명 가능한가? (P4)
  • '편향-분산 트레이드오프' 곡선에서 총 오차가 최소화되는 하드웨어적 임계 수치를 기술할 수 있는 가? (P1)

Secondary

  • '차원의 저주'가 하드웨어 메모리상의 데이터 밀도를 어떻게 수리적으로 희박하게 만드는지 소통 가능한가?
  • L1 규제가 '희소성(SparsitySparsity)'을 유발하여 물리적 특성 선택 엔진으로 쓰이는 과정을 논증할 수 있는 가?

Industry

  • 실제 비즈니스 문제(예: 이탈 예측)를 ML의 수리적 목표(Loss Minimization)로 물리 변환하는 수순을 제안할 수 있는 가? (SFIA)
  • Data Leakage 발생 시 학습된 모델이 실제 서비스 하드웨어에서 왜 수치적으로 붕괴하는지 분석할 수 있는 가?