Probability, Statistics & Information
불확실성을 수학적으로 모델링하는 확률론, 데이터를 통해 현상을 추론하는 통계학, 그리고 정보의 양을 정량화하는 정보 이론을 다루는 학습 노드입니다.
sys.entry
M
Me
hyunyoun's Blog
posts6 min read
1. Overview
확률, 통계 및 정보(Probability, Statistics & Information, PSI)는 불확실성이 존재하는 복잡한 시스템 내에서 합리적인 의사결정을 내리기 위한 수학적 및 정보적 분석 토대를 제공합니다.
현대 컴퓨터 과학에서 무작위성(Randomness)은 알고리즘 성능 최적화(Monte Carlo Method), 데이터 압축(Entropy), 네트워크 트래픽 제어, 그리고 머신러닝 시스템의 손실 함수 설계 등에서 결정적인 역할을 합니다. 학습자는 확률 변수와 분포의 이해를 넘어, 수집된 표본 데이터로부터 모집단을 추론하는 통계적 방법론과 정보 전달의 물리적 한계를 정량화하는 정보 이론의 기초를 공학적 관점에서 학습합니다.
2. Scope & Boundaries
In-Scope
- 확률론 기초: 확률 공간의 공리, 조건부 확률, 독립성, 베이즈 정리(Bayes' Theorem)
- 확률 변수 및 데이터 분포: 이산/연속 확률 변수, 기댓값, 분산, 주요 분포(정규, 이항, 포아송)
- 통계적 추론(Inference): 점 및 구간 추정, 가설 검정(P-value), 상관관계 분석 및 단순 회귀
- 정보 이론(Information Theory): 엔트로피(Entropy), 상호 정보량, 샤논의 채널 용량 기초
Out-of-Scope
- 결정론적 수리 물리 및 순수 해석학 (범용 수학 영역)
- 사용자 경험(UX) 데이터 대시보드 시각화 (HCI 및 BI 영역으로 위임)
- 심화된 금융 공학 및 퀀트 수치 모델링 (특수 산업 도메인 지식)
Boundaries
- PSI vs. Data Management: CS2023(MS/IM)에 따르면, PSI는 '데이터 자체가 가진 확률적 성질과 불확실성'을 규명하며, DM(06)은 '데이터의 효율적 저장 및 대규모 처리 시스템'의 아키텍처에 집중합니다.
3. Counterexample
- 단순히 평균, 표준편차와 같은 요약 통계량만 산출하는 것은 PSI 학습이 아닙니다. 왜 대규모 분산 데이터 시스템에서 **중심 극한 정리(CLT)**가 신뢰의 기반이 되는지, 그리고 관찰된 결과가 우연히 발생할 확률이 얼마인지(Statistical Significance)를 증명하여 시스템의 안정성을 수치적으로 입증할 수 있어야 합니다.
4. Prerequisites
- 이산 구조 및 모델링 (Basic): 조합론(Combinatorics)과 집합론이 확률 공간 계산과 계수 원리의 기초가 됩니다. (01. Discrete Structures)
- 선형대수 및 데이터 기하학 (Recommended): 다변수 확률 분포 분석 및 공분산 행렬 연산 시 선형대수 역량이 요구됩니다. (03. Linear Algebra)
5. Learning Map
- Probability Logic: 확률의 공리적 정의를 통해 불확실성 모델링의 논리 구조를 다집니다.
- Distributions & Sampling: 무작위 데이터가 퍼져 나가는 양상(분포)을 파악하고 샘플링의 원리를 익힙니다. (NC ↔ SEC 연계)
- Statistical Inference: 일부 데이터를 근거로 전체 시스템의 모수를 추정하고 가설을 검정하여 신뢰도를 산출합니다.
- Information Metrics: 정보의 불확실성(엔트로피)을 수치화하여 압축 효율과 물리적 전송 한계를 파악합니다.
6. Learning Topics
Basic
Core: 확률 공간과 베이즈 정리 (Probability Space & Bayes' Rule)
- Why to Learn: 사전 지식을 바탕으로 새로운 증거가 들어왔을 때 불확실성을 지속적으로 업데이트하기 위함입니다.
- What to Learn:
- 표본 공간과 사건의 정의 및 확률 공리
- 조건부 확률과 독립 사건의 판별
- 베이즈 정리(Bayes' Theorem)의 유도와 의미
- How to Learn:
- 스팸 메일 필터나 질병 진단 모델 예제를 통해 사후 확률 계산 실습
- 몬티 홀(Monty Hall) 문제와 같은 반직관적 사례의 수학적 분석
- Implement: 조건부 확률을 이용한 기초 텍스트 분류(Naive Bayes) 솔루션
Recommended
Core: 확률 분포와 대표값 (Distributions & Moments)
- Why to Learn: 시스템의 처리 시간, 에러 발생 빈도 등 데이터의 특성을 모델링하고 기댓값을 도출하기 위해서입니다.
- What to Learn:
- PMF/PDF 및 기댓값, 분산, 표준편차 계산
- 주요 이산 분포(이항, 포아송) 및 연속 분포(정규, 지수)성질
- 모멘트 생성 함수(MGF)의 기초 이용법
- How to Learn:
- 서로 다른 분포의 물리적 현상(예: 서버 장애 주기-지수 분포) 매핑 실습
- 대수의 법칙(LLN)을 시뮬레이션을 통해 직접 눈으로 확인하기
- Implement: 데이터 시뮬레이터(Monte Carlo 기초) 제작
Practical
Core: 통계적 추론과 가설 검정 (Statistical Inference & Testing)
- Why to Learn: 실험 데이터(A/B 테스트)가 우연이 아닌 유의미한 성능 개선임을 논리적으로 증명하기 위해서입니다.
- What to Learn:
- 중심 극한 정리(CLT)와 표본 분포의 이해
- 점 추정 및 신뢰 구간(Confidence Interval)의 도출
- 귀무 가설과 대립 가설 설정 및 P-value 해석
- How to Learn:
- 두 알고리즘의 실행 시간 평균 차이에 대한 T-test 검정 수행
- 유의 수준(Significance Level) 설정과 제1종/2종 오류의 트레이드오프 분석
- Implement: 통계 라이브러리(SciPy 등)를 활용한 A/B 테스트 검증 리포트
Advanced
Core: 정보 엔트로피와 정보량 (Information Entropy)
- Why to Learn: 데이터 압축과 전송의 이론적 한계를 이해하고 통신 효율을 극대화하기 위해서입니다.
- What to Learn:
- 자기 정보량(Self-information)과 엔트로피 정의
- 쿨백-라이블러 발산(KLD) 및 상호 정보량(Mutual Information)
- 하프만 코딩(Huffman Coding)과 압축 한계 정리
- How to Learn:
- 특정 텍스트 소스의 엔트로피를 계산하여 최적 비트 수 산출
- 통신 채널의 잡음이 전송 효율에 미치는 영향 수식화 실습
- Implement: 엔트로피 기반의 기초 가변 길이 코딩(Compression Engine)
7. Terminology
8. References
Primary References
- [P1] CS2023 - MS/Probability — Probability and statistics for CS.
- [P4] DS-BoK - Statistical Methods — Evidence-based data interpretation.
Secondary References
- [Introduction to Probability] Bertsekas & Tsitsiklis, MIT — Standard academic reference.
- [Information Theory, Inference, and Learning Algorithms] David MacKay — Deep link between PSI and Machine Learning.
Industry References
- [Google SRE Book] Monitoring and SLIs/SLOs — Statistical approach to system reliability.
- [Netflix Tech Blog] Experimentation and A/B Testing — Industrial scale statistical inference.
9. Final Checklist
Primary Checklist
- 베이즈 정리를 사용하여 기존 지식에 새로운 정보를 결합하는 확률 연산을 오류 없이 수행하는가? (P1, P4)
- 수집된 표본 데이터의 분포에 따라 적절한 모수 추정 및 가설 검정 모델을 선택할 수 있는가? (P1, P4)
Secondary Checklist
- 정보 엔트로피 개념을 통해 데이터 압축 알고리즘의 물리적 하한선을 수학적으로 설명할 수 있는가?
- 실험 결과의 유의 수준을 기반으로 의사결정의 위험 요소를 수치화하여 보고할 수 있는가?
Industry Checklist
- A/B 테스트 설계 시 표본 크기(Sample Size)를 통계적 거정력을 고려하여 산출할 수 있는가? (SFIA)
- 마르코프 체인 등 확률 모델을 사용하여 시스템의 미래 상태를 예측하거나 시뮬레이션 할 줄 아는가?