Information Theory & Entropy
정보량을 불확실성의 감소량으로 정의하고, 통신 채널의 한계와 데이터 압축의 수학적 토대를 다루는 정보 이론 학습 노드입니다.
sys.entry
M
Me
hyunyoun's Blog
posts6 min read
1. Overview
정보 이론 및 엔트로피(Information Theory & Entropy, ITE)는 "정보를 어떻게 수치화하고 효율적으로 전달할 것인가"를 다루는 디지털 문명의 정수입니다.
Claude Shannon에 의해 정립된 이 학문은 정보를 물리적 에너지가 아닌 '선택의 자유도' 혹은 '불확실성의 척도'로 정의합니다. 학습자는 데이터가 가진 고유의 무질서도를 나타내는 엔트로피(Entropy), 두 확률 분포 사이의 정보적 거리를 측정하는 KL-발산(Kullback-Leibler Divergence), 그리고 노이즈 있는 채널에서 전송 가능한 최대 정보량인 **채널 용량(Channel Capacity)**의 원리를 배웁니다. 이를 통해 무손실 압축의 한계를 명확히 인지하고, 통신 인프라와 머신러닝의 손실 함수(Cross-Entropy)를 가장 근본적인 물리 레벨에서 이해하는 능력을 갖춥니다.
2. Scope & Boundaries
In-Scope
- Information Measures: 자기 정보량(), 엔트로피(), 결합 및 조건부 엔트로피
- Mutual Information: 두 변수 사이의 정보적 상관관계와 상호 정보량 물리
- Source Coding Theory: 허프만 코딩 및 산술 코딩의 수리적 최적성 입증
- Channel Coding Theory: 샤논의 제2정리와 오류 정정 부호의 논리적 상한선
Out-of-Scope
- 특정 압축 소프트웨어(zip, rar)의 바이너리 구현 상세 (응용 소프트웨어 영역)
- 양자 정보 이론(Quantum Information)의 큐비트 연산 (특수 물리 영역)
Boundaries
- ITE vs. Networking: 네트워킹이 '패킷과 프로토콜'이라는 공학적 전송에 집중한다면, ITE는 '전달되는 데이터 그 자체가 포함하는 추상적인 비트 가치와 물리적 한계'에 집중합니다.
3. Counterexample
- 단순히 "파일 크기를 줄이는 것"은 ITE 학습이 아닙니다. 왜 특정 데이터의 엔트로피가 1비트라면, 어떤 코딩 기법을 쓰더라도 평균적으로 1비트 미만으로는 무손실 압축이 불가능한지(샤논의 제1정리) 물리적 증명을 할 수 있어야 합니다. 또한, 두 상호 독립적인 사건 사이의 상호 정보량이 왜 0이 되는지 수리적으로 논증하지 못한다면 ITE의 기초가 부족한 것입니다.
4. Prerequisites
- Probability Spaces & Random Variables (Basic): 확률 질량 함수와 기댓값 연산이 필수입니다. (04-01 PRV)
- Functions & Mappings (Recommended): 로그 함수의 성질과 부등식 처리가 권장됩니다. (01-02 FAM)
5. Learning Map
- Quantizing Surprise: 드물게 발생하는 사건일수록 정보량이 크다는 직관을 로그 수식으로 고정합니다.
- Entropy Architecture: 시스템 전체의 평균 정보량을 계산하여 데이터 압축의 물리적 하한선을 도출합니다.
- Mutual Connectivity: 정보가 공유되는 정도를 측정하여 변수 간의 통계적 의존성을 파악합니다.
- Reliability Physics: 노이즈가 존재하는 물리적 채널에서 오류 없이 정보를 보낼 수 있는 최대 속도를 규정합니다.
6. Learning Topics
Basic
Core: 정보량과 엔트로피의 정의 (Entropy Foundations)
- Why to Learn: 정보라는 추상적 개념을 비트() 단위로 정량화하여 연산 가능한 영역으로 끌어오기 위함입니다.
- What to Learn:
- 자기 정보량(): 놀라움의 정도와 정보의 가치
- 샤논 엔트로피(): 확률 변수의 평균 정보량 물리
- 비트(), 나트(), 하틀리 등의 단위와 로그 밑의 관계
- How to Learn:
- 균등 분포(주사위)와 편향된 분포(동전)의 엔트로피를 직접 계산하여 무질서도 비교 실습
- 항을 극한 처리를 통해 0으로 간주하는 수리적 타당성 확인
- Implement: 데이터 스트림을 실시간 샘플링하여 현재 시스템의 엔트로피를 동적으로 산출하는 모니터링 모듈
Recommended
Core: 데이터 압축과 소스 코딩 (Source Coding)
- Why to Learn: 자원의 낭비 없이 정보를 최적으로 패킹(Packing)하는 수학적 기법을 익히기 위해서입니다.
- What to Learn:
- 가변 길이 부호(Variable-length code)의 유효성 조건
- 허프만 코딩(Huffman Coding): 출현 빈도에 따른 최적 트리 구축 물리
- 접두 부호(Prefix code) 성질과 크래프트의 부등식(Kraft's Inequality)
- How to Learn:
- 영어 알파벳 'e'와 'z'의 출현 빈도에 따라 허프만 코드를 할당하고 평균 부호 길이 계산 연습
- 특정 부호계가 접두 부호가 아닐 때 데이터 해석(Decoding)에서 발생하는 물리적 모호성 분석
- Implement: 텍스트 파일을 입력받아 허프만 트리를 생성하고 압축 후의 엔트로피 접근도를 계산하는 도구
Practical
Core: 상호 정보량과 정보의 거리 (Information Geometry)
- Why to Learn: 데이터 간의 연관성을 단순히 '선형 상관관계'를 넘어 정보론적 관점으로 정밀 분석하기 위함입니다.
- What to Learn:
- 상호 정보량(): 한 변수를 알 때 다른 변수에 대해 얻는 정보의 양
- KL-발산(Kullback-Leibler Divergence): 실제 분포와 근사 분포 사이의 정보 손실 측정(비대칭성 물리)
- 교차 엔트로피(Cross-Entropy)의 정의와 엔트로피와의 관계
- How to Learn:
- 독립인 두 변수 사이의 상호 정보량이 수식적으로 0이 되는 과정을 시각화 연습
- 머신러닝의 분류 문제에서 왜 '교차 엔트로피'를 최소화하는 것이 정답 분포에 가까워지는 것인지 분석
- Implement: 두 확률 분포 사이의 KL-발산 수치를 계산하여 모델의 개선 정도를 측정하는 엔진
Advanced
Core: 채널 용량과 에러 정정의 기초 (Channel Physics)
- Why to Learn: 통신 환경의 물리적 노이즈를 극복하고 완벽한 데이터 전달을 보장하기 위해서입니다.
- What to Learn:
- 이진 대칭 채널(BSC)과 이진 삭제 채널(BEC)의 물리적 모델링
- 샤논의 채널 코딩 정리(Noisy-channel coding theorem)
- 채널 용량(): 대역폭과 신호 대 잡음비(SNR)가 결정짓는 정보 전송의 임계치
- How to Learn:
- 샤논-하틀리 공식을 통해 통신망의 물리적 속도 한계가 임을 수치적으로 계산 연습
- 신호에 리던던시(Redundancy)를 추가했을 때 엔트로피가 어떻게 변하며 에러가 복구되는지 원리 탐구
- Implement: 특정 에러율을 가진 가상 채널에서 데이터를 전송하고 체크섬/코드를 통해 복구율을 테스트하는 시뮬레이터
7. Terminology
8. References
Primary
- [P1] CS2023 - DS/Discrete Probability — Basic information measures.
- [P4] DS-BoK - Mathematical Foundations / Information Theory — Core skills for DS.
Secondary
- [Elements of Information Theory] Cover & Thomas — The "Standard Bible" of information theory.
- [A Mathematical Theory of Communication] Claude Shannon — The original 1948 seminal paper.
Industry
- [Shannon-Hartley Theorem in LTE/5G] — Industry application of channel capacity.
- [Lossless Compression Standards Guide (Zlib/Gzip)] — Practical source coding.
9. Final Checklist
Primary
- 사건의 확률 가 낮을수록 정보량 가 지수적으로 증가하는 물리적 필연성을 설명할 수 있는 가? (P1)
- 엔트로피 수식 의 기댓값 구조를 분석하여 무질서도를 수치화할 수 있는 가? (P1)
Secondary
- 엔트로피와 교차 엔트로피의 차이가 KL-발산임을 수식으로 전개하고 그 기하학적 의미를 소통 가능한가?
- 기호의 빈도가 다를 때 고정 길이 부호(Fixed-length)보다 가변 길이 부호가 왜 더 효율적인지 물리적으로 입증 가능한가?
Industry
- 마이크로서비스 간 데이터 전송 시, 페이로드의 엔트로피를 분석하여 추가적인 압축 알고리즘 도입 여부를 결정할 수 있는 가? (SFIA)
- 딥러닝 모델의 손실 함수로 Cross-Entropy를 사용할 때, 예측 분포가 실제 분포와 일치해지는 지점의 수리적 특성을 분석할 수 있는 가?