Probability, Statistics & Information

1. Overview

확률, 통계 및 정보(Probability, Statistics & Information, PSI)는 데이터에 내재된 무작위성(Randomness)과 노이즈를 수학적으로 정량화하고, 제한된 표본(Sample)을 통해 거시적 시스템의 동작과 특성을 논리적으로 추론하는 데이터 사이언스 및 시스템 엔지니어링의 근간입니다.

현대 컴퓨터 과학에서 무작위성은 단순히 '알 수 없음'이 아닙니다. 알고리즘 최적화(Monte Carlo/Las Vegas 알고리즘), 대용량 데이터 무손실 압축 통신, 클라우드 트래픽 제어, 분산 시스템의 서비스 수준 목표(SLO/SLI) 검증 등 거의 모든 엔지니어링 도메인에서 확률적 모델이 활용됩니다. 학습자는 확률 변수와 분포에 대한 수학적 이해를 넘어, 통계적 가설 검정 방법론을 실무의 A/B 테스트에 적용하고, 섀넌의 정보 이론(Information Theory)을 기반으로 정보 전달의 물리적 한계를 증명하는 융합적 엔지니어링 시각을 습득합니다.

2. Scope & Boundaries

In-Scope

확률론 기초 및 베이지안 추론: 공리적 확률 공간 정의, 조건부 확률, 베이즈 정리(Bayes' Theorem)를 이용한 사후 확률(Posterior) 업데이트 논리.
분포 및 모멘트 (Distributions & Moments): 기댓값(Expectation), 분산/표준편차, 주요 분포 특성(이항, 정규, 포아송, 지수 멱법칙), 중심 극한 정리(CLT).
통계적 추론 및 가설 검정 (Inference & Testing): 점 추정과 신뢰 구간(Confidence Interval), 귀무 가설과 P-value, T-검정(T-test), A/B 테스트의 수학적 설계.
정보 이론 (Information Theory): 정보량의 측정 수단인 섀넌 엔트로피(Entropy), 쿨백-라이블러 발산(KLD) 거리, 상호 정보량(Mutual Information), 데이터 압축률의 이론적 한계.

Out-of-Scope

순수 측도론적 확률론 (Measure-Theoretic Probability): 르베그(Lebesgue) 적분을 포함한 심화 해석학 및 엄밀한 확률 공간 공리 증명 → 수학(순수 학문) 영역으로 위임.
응용 머신러닝 알고리즘 아키텍처: SVM 모델 수식, 랜덤 포레스트(Random Forest) 트리 구성 알고리즘, 딥러닝 손실 함수 미분 전개 → 11. Machine Learning & AI 영역으로 위임.
단순 시각화 대시보드 엔지니어링: BI 툴(Tableau, Grafana)의 차트 렌더링 세팅 및 UI 레이아웃 설계 → 12. Human-Computer Interaction & Graphics 영역으로 위임.

Boundaries

PSI vs Machine Learning (11. ML): PSI는 불확실성을 수치적으로 모델링하고 통계적 유의성을 검증하는 '수학적 통계 이론'을 제공합니다. ML은 PSI의 핵심 이론(분포, KLD, 최소제곱법)을 바탕으로 데이터를 학습하고, 모델의 파라미터를 튜닝하여 '미래 데이터를 예측하는 자동화된 파이프라인'을 공학적으로 설계합니다.

3. Counterexample

유의성 검증 없는 요약 통계량 맹신 (Averages Trap): 대용량 트래픽 로그를 분석할 때, 아웃라이어(Outlier)가 많은 데이터에서 엑셀로 단순 산술 평균(Mean)만 구하고 결론을 내리는 것은 위험한 안티패턴입니다. 인터넷 트래픽은 멱법칙(Power Law)이나 롱테일(Long Tail) 분포를 주로 띠므로 평균값은 무의미합니다. 중앙값(Median)이나 99번째 백분위수(P99)를 사용하는 이유를 통계적으로 입증해야 합니다.
P-value 해킹 및 통계적 오용 (P-hacking): "P-value가 0.05 미만이므로 무조건 이 방법이 절대적으로 우월하다"라고 주장하는 것은 가설 검정의 오용입니다. 효과 크기(Effect Size)와 표본의 크기(Sample Size)를 함께 고려하여, 이 통계적 차이가 비즈니스적으로도 가치 있는 차이인지 종합적으로 해석하는 실무 능력이 필요합니다.

4. Prerequisites

이산 구조 및 모델링 (Basic): 조합론(Combinatorics) 기반의 순열과 조합, 부분 집합 논리는 확률 공간의 분모/분자 가짓수를 세는 기초 도구가 됩니다. (01-01. DSM)
선형대수 및 데이터 기하학 (Recommended): 다변수 확률 분포(Multivariate Distribution)의 공분산 행렬 연산과 차원 축소를 이해하려면 벡터 공간과 직교성 개념이 필요합니다. (01-03. LADG)

5. Learning Map

Sequence	Core Cluster	Objective & Description	Evidence (BoK)
1	Probability & Bayes	확률의 공리적 정의를 파악하고, 베이즈 정리를 통해 불확실한 시스템에서 새로운 이벤트가 주어졌을 때의 확률을 추론합니다.	P1/Prob
2	Distributions & Moments	무작위 데이터가 군집화되는 양상(분포)과 특성(기댓값, 분산)을 파악하고 중심 극한 정리의 물리적 의미를 통찰합니다.	P1/Prob
3	Statistical Inference	소규모 표본(Sample) 데이터만으로 거대한 전체 모수(Population)를 추정하고 가설을 엄밀하게 검정하여 리포팅합니다.	P4
4	Information Theory	엔트로피를 통해 정보의 불확실성을 정량화하고, 통신 채널의 한계 및 데이터 무손실 압축 알고리즘의 기준선을 파악합니다.	Industry

6. Learning Topics

Basic

Core Topic 01: 확률 공간과 베이즈 추론 (Probability Space & Bayesian Inference)

Why to Learn: 사전 지식을 바탕으로 시스템에 새로운 증거(Log, Event)가 관찰되었을 때, 인간의 직관적 편향(Bias)을 배제하고 불확실성을 수학적으로 업데이트하기 위함입니다.
What to Learn:
- Concepts: 표본 공간(Sample Space), 사건(Event), 조건부 확률(Conditional Probability).
- Skills: 독립 사건(Independent)과 배반 사건(Mutually Exclusive)의 수학적 판별, 베이즈 정리(Bayes' Theorem)를 이용한 사후 확률(Posterior) 산출.
- Tools: 확률 트리 다이어그램, 벤 다이어그램.
- Trade-offs: 완벽한 전수 조사 기반의 빈도주의(Frequentist) 통계 한계 극복 vs 주관적인 사전 확률(Prior) 설정이 가져올 수 있는 베이지안 편향 리스크.
How to Learn:
- 1단계: 몬티 홀(Monty Hall) 문제나 희귀병 진단의 위양성(False Positive) 역설을 베이즈 수식으로 전개하여 인간의 확률적 인지 오류를 교정합니다.
- 2단계: 과거 발생한 서버 장애 데이터(Prior)에 새로운 모니터링 경고(Evidence)가 들어왔을 때, 실제 장애일 확률을 베이즈 룰로 갱신합니다.
Implement: 특정 키워드 집합이 포함된 이메일이 주어졌을 때 스팸 메일일 확률을 계산하는 Naive Bayes 기반 기초 필터 모듈 훈련 스크립트 작성.

Why to Learn: 시스템 큐(Queue)의 대기 시간, 마이크로서비스 에러 발생 빈도, 네트워크 패킷 딜레이 등 실세계 데이터의 혼돈 특성을 수학적으로 추상화하여 시뮬레이션하기 위해서입니다.
What to Learn:
- Concepts: 확률 질량 함수(PMF) 및 확률 밀도 함수(PDF), 중심 극한 정리(CLT), 대수의 법칙(LLN).
- Skills: 기댓값( $E[X]$ )과 분산( $Var(X)$ ) 계산, 주요 분포(이항 분포, 정규 분포, 지수 분포, 포아송 분포)를 특정 시스템 물리 현상에 매핑.
- Tools: 통계 시뮬레이션 라이브러리(SciPy stats, NumPy random).
- Trade-offs: 모든 데이터를 정규 분포로 가정하여 얻는 모델 연산의 극단적 단순성 vs 아웃라이어를 반영하지 못해 발생하는 '블랙 스완(Black Swan)' 예측 실패의 위험성.
How to Learn:
- 1단계: 웹 서버의 초당 트래픽 유입 패턴은 '포아송 분포(Poisson)'를 따르고, 다음 요청까지의 대기 시간은 '지수 분포(Exponential)'를 따르는 관계성을 연계하여 증명합니다.
- 2단계: 파이썬 시뮬레이션으로 임의의 편향된 주사위를 수만 번 굴려, 주사위 값 자체의 분포와 상관없이 표본 평균들의 분포는 완벽한 정규 분포(CLT)가 됨을 시각화로 증명합니다.
Implement: 특정 분산과 평균 제약 조건을 가지는 확률 분포를 기반으로, 가상 고객의 방문 주기와 구매 금액 대용량 로그를 생성해 내는 테스트 데이터 발생기(Mock Data Generator).

Practical

Core Topic 03: 통계적 추론과 A/B 테스트 설계 (Statistical Inference & A/B Testing)

Why to Learn: 소프트웨어 기능 개선, 추천 알고리즘 변경 등의 결과가 단순히 '운'이 아니라 통계적으로 유의미한(Significant) 비즈니스 성과임을 조직 내에서 과학적으로 입증하기 위해서입니다.
What to Learn:
- Concepts: 모수(Parameter)와 통계량(Statistic), 점 추정 및 신뢰 구간(Confidence Interval, 95%), P-value.
- Skills: 귀무 가설( $H_0$ )과 대립 가설( $H_1$ ) 설정, 1종 오류(Type I Error, $\alpha$ ) 방어선 구축, T-검정(T-test) 및 표본 크기(Sample Size) 산출.
- Tools: SciPy 패키지(scipy.stats.ttest_ind), 통계 분석용 R 스크립트.
- Trade-offs: 낮은 유의 수준(예: $\alpha=0.01$ ) 적용으로 인한 극도의 보수적 안정성 보장 vs 까다로운 기준으로 인해 실제 존재하는 시스템 개선 효과를 놓칠(2종 오류) 가능성의 딜레마.
How to Learn:
- 1단계: 두 종류의 데이터베이스 캐시 알고리즘(LRU vs LFU) 쿼리 속도 데이터를 1,000건 수집하여 평균 차이가 통계적으로 유의미한지 독립 표본 T-test를 수행해 봅니다.
- 2단계: 웹사이트 결제 버튼 색상 변경에 따른 전환율 개선(A/B 테스트) 리포트를 작성할 때, "P-value=0.03이므로 차이가 유의미하다"는 단순 결론을 넘어 효과 크기(Effect Size)를 분석합니다.
Implement: 대조군(Control)과 실험군(Treatment)의 배열 데이터를 입력받아 T-검정 통계량과 P-value를 반환하고, 신뢰 구간 내에 0이 포함되는지 확인하여 $\alpha=0.05$ 기준 통계적 유의성 여부를 판독하는 리포팅 함수.

Advanced

Core Topic 04: 정보 이론과 엔트로피 (Information Theory & Entropy)

Why to Learn: 물리적 통신 채널의 전송 대역폭 한계를 수학적으로 산출하고, 무손실 데이터 압축 알고리즘을 최적화하며 머신러닝의 손실 함수(Loss Function) 본질을 파악하기 위해서입니다.
What to Learn:
- Concepts: 섀넌 엔트로피(Shannon Entropy, $H(X) = -\sum p(x)\log p(x)$ ), 정보량(Surprisal), 쿨백-라이블러 발산(KLD), 상호 정보량(Mutual Information).
- Skills: 교차 엔트로피(Cross-Entropy) 수식을 통한 두 확률 분포 간의 불일치도 측정, 허프만 코딩(Huffman Coding) 기반 트리 생성.
- Tools: 정보 이론 계산 수학 유틸리티, NumPy 로그 스케일 연산.
- Trade-offs: 출현 빈도가 높은 문자에 짧은 비트를 부여하는 섀넌-파노(Shannon-Fano) 압축의 극대화된 압축률 vs 딕셔너리(Tree) 관리 및 압축/해제 연산 시 소요되는 CPU 사이클 오버헤드.
How to Learn:
- 1단계: 영어 알파벳의 실제 출현 빈도 확률 분포 배열을 이용하여, 일반적인 영문 텍스트 스트림의 평균 섀넌 엔트로피 한계를 비트(Bit/Symbol) 단위로 산출합니다.
- 2단계: 딥러닝 훈련 과정에서 예측된 확률 분포 네트워크 출력이 정답 라벨 데이터 분포(One-hot)와 얼마나 차이 나는지를 KLD(Kullback-Leibler Divergence) 수식으로 측정하고 이를 비용 함수로 모델링해 봅니다.
Implement: 임의의 문자열 텍스트가 주어졌을 때 내부 문자의 빈도를 집계하여 확률을 산출하고, 섀넌 엔트로피 값을 출력한 뒤 허프만 트리 구조를 그려 압축 인코딩의 한계 크기를 도출하는 코덱(Codec) 시뮬레이터 개발.

7. Terminology

Term (EN / ko, abbr)	1문장 정의	단계(기본/권장/실무/심화)	역할/맥락	관련 개념	유사/대비/함께 사용	오해 포인트	Evidence(Primary/Secondary/Industry)	Flags(core/misused/legacy)
Conditional Prob.	특정 사건이 발생했다는 제약 조건 하에서 다른 사건이 발생할 확률 가중치입니다.	기본	기초 정의	Bayes' Rule	Joint Prob.	선후 관계와 인과 관계를 혼동함	P1:CS2023/Probability	core
P-value (유의 확률)	귀무 가설이 참이라는 가정 하에 관찰된 데이터보다 극단적 결과가 나타날 확률입니다.	추천	가설 검정	Hypothesis	Confidence	확률이 높을수록 좋다고 오해	P4:DS-BoK	core
Entropy (엔트로피)	시스템이나 메시지가 가질 수 있는 정보의 불확실성 혹은 평균 정보량을 비트 단위로 정량화한 것입니다.	실무	정보 측정	Shannon	Surprise	단순히 '무질서도'로만 번역함	Industry Theory	core
CLT (중심 극한 정리)	모집단 분포와 상관없이 표본의 크기가 커지면 표본 평균의 분포가 정규 분포에 가까워진다는 원리입니다.	추천	통계 근거	Normal Dist.	LLN	모집단이 정규분포여야 한다고 오해	P4:DS-BoK	core

8. References

Primary References

[P1] CS2023 - MS/Probability — Probability and statistics for CS.
[P4] DS-BoK - Statistical Methods — Evidence-based data interpretation.

Secondary References

[Introduction to Probability] Bertsekas & Tsitsiklis, MIT — Standard academic reference.
[Information Theory, Inference, and Learning Algorithms] David MacKay — Deep link between PSI and Machine Learning.

Industry References

[Google SRE Book] Monitoring and SLIs/SLOs — Statistical approach to system reliability.
[Netflix Tech Blog] Experimentation and A/B Testing — Industrial scale statistical inference.

9. Final Checklist

Primary Checklist

베이즈 정리를 사용하여 기존 지식에 새로운 정보를 결합하는 확률 연산을 오류 없이 수행하는가? (P1, P4)
수집된 표본 데이터의 분포에 따라 적절한 모수 추정 및 가설 검정 모델을 선택할 수 있는가? (P1, P4)

Secondary Checklist

정보 엔트로피 개념을 통해 데이터 압축 알고리즘의 물리적 하한선을 수학적으로 설명할 수 있는가?
실험 결과의 유의 수준을 기반으로 의사결정의 위험 요소를 수치화하여 보고할 수 있는가?

Industry Checklist

A/B 테스트 설계 시 표본 크기(Sample Size)를 통계적 거정력을 고려하여 산출할 수 있는가? (SFIA)
마르코프 체인 등 확률 모델을 사용하여 시스템의 미래 상태를 예측하거나 시뮬레이션 할 줄 아는가?