콘텐츠로 바로가기

Unsupervised Learning Dynamics

정답 없이도 데이터 스스로가 가진 물리적 유사성과 구조를 수리적으로 발견하고, 방대한 하드웨어 정보를 핵심 정보로 압축하거나 이상 수치를 걸러내는 지능형 발견 물리학을 다룹니다.

sys.entry
M

Me

hyunyoun's Blog

posts7 min read

1. Overview

비지도 학습 역학(Unsupervised Learning Dynamics, ULD)은 "무엇이 정답인가"를 묻지 않고 "무엇이 서로 닮았는가"라는 데이터의 물리적 거리를 수리적으로 측정하여, 인간이 미처 발견하지 못한 데이터의 숨겨진 지형도를 그리는 '자율적 구조 발견 물리학'입니다.

학습자는 흩어진 점들을 유사한 성질로 묶는 **군집화(Clustering)**의 수리적 수순과, 수만 개의 하드웨어 변수 중 핵심적인 물리적 흐름만 남기는 **차원 축소(Dimensionality Reduction)**의 기제를 배웁니다. 특히, 대다수의 정상 수치에서 벗어난 단 하나의 물리적 징후를 수리적으로 포착하는 **이상 탐지(Anomaly Detection)**를 익힙니다. 이를 통해 정답 레이블을 수동으로 달 필요 없이, 데이터 스스로가 자신의 정체성을 수치적으로 증명하게 만드는 하이엔드 인사이트 거버넌스 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

  • Clustering Mechanics: K-Means, DBSCAN 등 거리 기반 또는 밀도 기반의 수리적 군집 생성
  • Dimensionality Reduction: PCA, t-SNE, UMAP을 통한 정보 손실 최소화 및 물리적 압축
  • Association Rules: 장바구니 분석(Apriori) 등 사건 간의 수치적 연관성 발견
  • Anomaly Detection Patterns: Isolation Forest, LOF 등을 통한 물리적 특이값 포착
  • Manifold Learning: 고차원 공간에 숨겨진 저차원 물리적 곡면(Manifold)의 수리적 전개

Out-of-Scope

  • 정답 레이블을 활용한 오차 보정 학습 (11-01-02 SLP 영역에서 분담)
  • 데이터 전처리 파이프라인의 물리 구축 (06-XX-XX 영역에서 분담)

Boundaries

  • ULD vs. Statistical Tests: 일반 통계 가설 검정이 '두 집단이 수리적으로 유의미하게 다른가'에 집중한다면, ULD는 '명시적 구분 없이도 데이터 공간상에 물리적으로 몇 개의 집단이 존재하는가'라는 형상 발견에 집중하여 구분합니다.

3. Counterexample

  • 단순히 "그룹 나누기"라 설명하는 것은 ULD 학습이 아닙니다. 왜 K-Means 군집화는 클러스터의 개수(kk) 수치를 잘못 설정하면 물리적으로 실재하지 않는 가상의 그룹을 수리적으로 창조해 내는지 증명할 수 있어야 하며, **PCA(주성분 분석)**가 단순히 변수를 버리는 것이 아니라 원래 데이터의 '물리적 분산(Variance)'을 보존하는 새로운 수리적 축을 형성하는 과정임을 논증하지 못한다면 비지도 학습의 본질을 이해하지 못한 것입니다.

4. Prerequisites

  • Linear Algebra & Vector Calculus (Basic): 02-06-XX의 고유값(Eigenvalue), 고유벡터 분해 이해가 필수입니다.
  • Machine Learning Basics (Basic): 11-01-01의 유클리드 거리 및 피처 벡터 이해가 필수입니다.

5. Learning Map

  1. The Unseen Maps: 정답 없이도 데이터가 스스로 물리적 섬(Cluster)을 이루는 수리 원리를 배웁니다.
  2. Compressing Reality: 수백 개의 수치 정보를 핵심 정보 2~3개로 압축하여 물리적 형상을 시각화합니다.
  3. The Fingerprint of Weirdness: 평범한 수치들 사이에 숨어든 미세한 물리적 균열(Anomaly)을 수리 포착합니다.
  4. Autonomous Taxonomy: 인간의 개입 없이 데이터가 스스로를 분류하는 하이엔드 자율 지능 체계를 완성합니다.

6. Learning Topics

Basic

Core: 군집화와 거리의 물리학 (Clustering Physics)

  • Why to Learn: 비슷한 취향이나 행위를 가진 사용자를 수리적으로 묶어 하드웨어 자원을 맞춤형으로 배분하기 위해서입니다.
  • What to Learn:
    • K-Means: 중심점(Centroid)을 향한 물리적 수렴 수순과 kk 수치 스캐닝
    • Hierarchical Clustering: 나무(Dendrogram) 모양으로 데이터 간의 수리적 위계를 세우는 법
    • Distance Metrics: 유클리드, 맨해튼, 코사인 유사도 등 물리적 '닮음'에 대한 수리 정의
  • How to Learn:
    • 수천 장의 가상 고객 데이터를 좌표 평면에 뿌리고, Scikit-learn으로 하드웨어가 3개의 그룹을 수리 분류해 내는 과정 확인 실습
    • 엘보우 포인트(Elbow Point) 수치를 분석하여, 가장 효율적인 군집 개수를 물리 산출하는 훈련
  • Implement: 두 벡터 사이의 다양한 물리적 거리를 계산하여 출력하는 기초 VectorMetrologist

Core: 차원 축소와 주성분 분석 (PCA Mechanics)

  • Why to Learn: 불필요한 하드웨어 수치들(Noise)을 걷어내고, 예측 성능에 도달하는 수리적 최단 경로를 찾기 위함입니다.
  • What to Learn:
    • PCA (Principal Component Analysis): 데이터의 물리적 퍼짐(분산)이 가장 큰 수리적 축 찾기
    • Feature Extraction: 수십 개의 입력값을 조합하여 소수의 '정예 수치'로 물리 합성하기
    • Visualization for High-dim: 100차원의 데이터를 인간이 볼 수 있는 2차원 물리 평면으로 수치 투영
  • How to Learn:
    • 고해상도 이미지 하드웨어 데이터를 PCA로 압축한 뒤, 다시 복원했을 때의 물리적 화질 수치 대조 실습
    • t-SNE를 사용하여 복잡한 손글씨 데이터를 수리적으로 뭉치게 하여 물리적 유사성을 시각 검증
  • Implement: 데이터 세트에서 분산을 최대화하는 주성분을 추출하는 기초 PhysicsCompressor

Practical

Core: 밀도 기반 군집화와 이상 탐지 (Advanced Discovery)

  • Why to Learn: 기하학적으로 꼬인 데이터 무리를 잡아내고, 하드웨어 사고 징후를 수치적으로 미리 알기 위해서입니다.
  • What to Learn:
    • DBSCAN: 원형이 아닌 물리적 형상(초승달형 등)을 수리적으로 식별하는 밀도 기반 기제
    • Isolation Forest: 데이터를 고립(Isolation)시키기 위해 필요한 수리적 질문 횟수로 이상값 판정
    • Autoencoder Foundations: 자신의 물리적 수치를 다시 복제하는 과정을 통해 이상 수치를 걸러내는 법
  • How to Learn:
    • 노이즈가 섞인 위치 데이터에서 '정상 트래픽'과 '이상 경로'를 수리 분리해 내는 물리 분석 실습
    • 카드 결제 로그 중 평소와 다른 '수리적 이격'을 보이는 건을 실시간 하드웨어가 잡아내게 하는 시뮬레이션
  • Implement: 주변 밀도가 낮은 데이터를 자동으로 드랍하는 물리 필터 AnomalyScanner

Advanced

Core: 매니폴드 가설과 위상적 데이터 분석 (Topological Insights)

  • Why to Learn: 데이터가 가진 복잡한 수리적 매듭을 풀어, 하이엔드 AI가 인식할 수 있는 물리적 직선으로 펴기 위함입니다.
  • What to Learn:
    • Manifold Hypothesis: 고차원 데이터는 사실 저차원의 수리적 곡면 위에 물리적으로 존재한다는 통찰
    • UMAP (Uniform Manifold Approximation): 위상 구조를 보존하며 데이터를 수치 압축하는 하이엔드 기술
    • Clustering Validation: 정답이 없는 상태에서 군집화의 수리적 수치(실루엣 계수 등)를 물리 확증하는 법
  • How to Learn:
    • 스위스 롤(Swiss Roll)과 같이 말린 데이터를 수리적으로 펼치어 물리적 거리 관계를 재정의하는 실습
    • '실루엣 점수'가 낮은 클러스터 내부의 수리적 중첩 현상을 분석하여 알고리즘 파라미터를 물리 보정하는 훈련
  • Implement: 데이터의 위상 구조 변화를 추적하여 최적의 압축 수치를 제안하는 Manifold_Analyzer

7. Terminology

Term (EN / ko, abbr) 1문장 정의 단계(기본/권장/실무/심화) 역할/맥락 관련 개념 유사/대비/함께 사용 오해 포인트 Evidence(Primary/Secondary/Industry) Flags(core)
Clustering 데이터 사이의 물리적 유사성을 수리적으로 측정하여 특성이 비슷한 개체끼리 묶는 탐색적 공정입니다. 기본 구조 발견 Centroid / Den classification 정답 레이블 필요 없음 P4:DSBOK core
PCA 고차원 데이터의 정보를 최대한 수리적으로 보존하면서 물리적으로 다루기 쉬운 저차원으로 축소하는 기법입니다. 추천 정보 압축 Eigen / Variance SVD 단순 삭제와 다름 P4:DSBOK core
Anomaly 데이터의 대다수 흐름과는 수리적/물리적으로 뚜렷하게 다른 비정상적인 징후나 수치입니다. 추천 위험 감지 Outlier / Forest Noise 노이즈와 구별되는 '정보'임 P4:DSBOK core
Manifold 고차원 공간 내에서 데이터들이 수리적으로 연속적으로 배치되어 형성하는 하위 물리적 곡면입니다. 심화 형상 이론 Topology / UMAP Space 데이터의 실제 형태를 의미함 P1:CS2023 core

8. References

Primary

Secondary

  • [Hands-On Unsupervised Learning Using Python] Ankur Patel — Practical discovery patterns.
  • [Mining of Massive Datasets] Jure Leskovec — The scalable algorithms overview.

Industry

  • [Scikit-learn Documentation: Clustering] — Practical implementation guide.
  • [Amazon SageMaker: Anomaly Detection best practices] — Cloud operational context.

9. Final Checklist

Primary

  • 'K-Means'의 초기 중심점 설정이 최종 수리 결과의 물리적 형태에 미치는 영향을 설명 가능한가? (P4)
  • '차원 축소' 시 도출된 '주성분'들이 원래 하드웨어 변수들과 어떤 수리적 상관관계를 갖는지 기술할 수 있는 가? (P1)

Secondary

  • 'DBSCAN'이 '밀도(DensityDensity)' 수치를 통해 노이즈를 수리적으로 처리하는 물리적 이점을 소통 가능한가?
  • t-SNE의 'Perplexity' 수치가 데이터의 로컬/글로벌 물리 구조 시각화에 미치는 영향을 논증할 수 있는 가?

Industry

  • 실무 고객 행동 로그에서 '새로운 세그먼트'를 수리적으로 추출하여 마케팅 하드웨어 전략에 반영할 수 있는 가? (SFIA)
  • Isolation Forest의 '평균 경로 길이' 수치를 통해 하드웨어 침투 징후를 물리적으로 즉각 판별할 수 있는 가?