콘텐츠로 바로가기

Information Theory & Entropy

정보량을 불확실성의 감소량으로 정의하고, 통신 채널의 한계와 데이터 압축의 수학적 토대를 다루는 정보 이론 학습 노드입니다.

sys.entry
M

Me

hyunyoun's Blog

posts6 min read

1. Overview

정보 이론 및 엔트로피(Information Theory & Entropy, ITE)는 "정보를 어떻게 수치화하고 효율적으로 전달할 것인가"를 다루는 디지털 문명의 정수입니다.

Claude Shannon에 의해 정립된 이 학문은 정보를 물리적 에너지가 아닌 '선택의 자유도' 혹은 '불확실성의 척도'로 정의합니다. 학습자는 데이터가 가진 고유의 무질서도를 나타내는 엔트로피(Entropy), 두 확률 분포 사이의 정보적 거리를 측정하는 KL-발산(Kullback-Leibler Divergence), 그리고 노이즈 있는 채널에서 전송 가능한 최대 정보량인 **채널 용량(Channel Capacity)**의 원리를 배웁니다. 이를 통해 무손실 압축의 한계를 명확히 인지하고, 통신 인프라와 머신러닝의 손실 함수(Cross-Entropy)를 가장 근본적인 물리 레벨에서 이해하는 능력을 갖춥니다.

2. Scope & Boundaries

In-Scope

  • Information Measures: 자기 정보량(I(x)I(x)), 엔트로피(H(X)H(X)), 결합 및 조건부 엔트로피
  • Mutual Information: 두 변수 사이의 정보적 상관관계와 상호 정보량 물리
  • Source Coding Theory: 허프만 코딩 및 산술 코딩의 수리적 최적성 입증
  • Channel Coding Theory: 샤논의 제2정리와 오류 정정 부호의 논리적 상한선

Out-of-Scope

  • 특정 압축 소프트웨어(zip, rar)의 바이너리 구현 상세 (응용 소프트웨어 영역)
  • 양자 정보 이론(Quantum Information)의 큐비트 연산 (특수 물리 영역)

Boundaries

  • ITE vs. Networking: 네트워킹이 '패킷과 프로토콜'이라는 공학적 전송에 집중한다면, ITE는 '전달되는 데이터 그 자체가 포함하는 추상적인 비트 가치와 물리적 한계'에 집중합니다.

3. Counterexample

  • 단순히 "파일 크기를 줄이는 것"은 ITE 학습이 아닙니다. 왜 특정 데이터의 엔트로피가 1비트라면, 어떤 코딩 기법을 쓰더라도 평균적으로 1비트 미만으로는 무손실 압축이 불가능한지(샤논의 제1정리) 물리적 증명을 할 수 있어야 합니다. 또한, 두 상호 독립적인 사건 사이의 상호 정보량이 왜 0이 되는지 수리적으로 논증하지 못한다면 ITE의 기초가 부족한 것입니다.

4. Prerequisites

  • Probability Spaces & Random Variables (Basic): 확률 질량 함수와 기댓값 연산이 필수입니다. (04-01 PRV)
  • Functions & Mappings (Recommended): 로그 함수의 성질과 부등식 처리가 권장됩니다. (01-02 FAM)

5. Learning Map

  1. Quantizing Surprise: 드물게 발생하는 사건일수록 정보량이 크다는 직관을 로그 수식으로 고정합니다.
  2. Entropy Architecture: 시스템 전체의 평균 정보량을 계산하여 데이터 압축의 물리적 하한선을 도출합니다.
  3. Mutual Connectivity: 정보가 공유되는 정도를 측정하여 변수 간의 통계적 의존성을 파악합니다.
  4. Reliability Physics: 노이즈가 존재하는 물리적 채널에서 오류 없이 정보를 보낼 수 있는 최대 속도를 규정합니다.

6. Learning Topics

Basic

Core: 정보량과 엔트로피의 정의 (Entropy Foundations)

  • Why to Learn: 정보라는 추상적 개념을 비트(bitbit) 단위로 정량화하여 연산 가능한 영역으로 끌어오기 위함입니다.
  • What to Learn:
    • 자기 정보량(I(x)=log2P(x)I(x) = -\log_2 P(x)): 놀라움의 정도와 정보의 가치
    • 샤논 엔트로피(H(X)H(X)): 확률 변수의 평균 정보량 물리
    • 비트(bitbit), 나트(natnat), 하틀리 등의 단위와 로그 밑의 관계
  • How to Learn:
    • 균등 분포(주사위)와 편향된 분포(동전)의 엔트로피를 직접 계산하여 무질서도 비교 실습
    • 0log00 \log 0 항을 극한 처리를 통해 0으로 간주하는 수리적 타당성 확인
  • Implement: 데이터 스트림을 실시간 샘플링하여 현재 시스템의 엔트로피를 동적으로 산출하는 모니터링 모듈

Core: 데이터 압축과 소스 코딩 (Source Coding)

  • Why to Learn: 자원의 낭비 없이 정보를 최적으로 패킹(Packing)하는 수학적 기법을 익히기 위해서입니다.
  • What to Learn:
    • 가변 길이 부호(Variable-length code)의 유효성 조건
    • 허프만 코딩(Huffman Coding): 출현 빈도에 따른 최적 트리 구축 물리
    • 접두 부호(Prefix code) 성질과 크래프트의 부등식(Kraft's Inequality)
  • How to Learn:
    • 영어 알파벳 'e'와 'z'의 출현 빈도에 따라 허프만 코드를 할당하고 평균 부호 길이 계산 연습
    • 특정 부호계가 접두 부호가 아닐 때 데이터 해석(Decoding)에서 발생하는 물리적 모호성 분석
  • Implement: 텍스트 파일을 입력받아 허프만 트리를 생성하고 압축 후의 엔트로피 접근도를 계산하는 도구

Practical

Core: 상호 정보량과 정보의 거리 (Information Geometry)

  • Why to Learn: 데이터 간의 연관성을 단순히 '선형 상관관계'를 넘어 정보론적 관점으로 정밀 분석하기 위함입니다.
  • What to Learn:
    • 상호 정보량(I(X;Y)I(X;Y)): 한 변수를 알 때 다른 변수에 대해 얻는 정보의 양
    • KL-발산(Kullback-Leibler Divergence): 실제 분포와 근사 분포 사이의 정보 손실 측정(비대칭성 물리)
    • 교차 엔트로피(Cross-Entropy)의 정의와 엔트로피와의 관계
  • How to Learn:
    • 독립인 두 변수 사이의 상호 정보량이 수식적으로 0이 되는 과정을 시각화 연습
    • 머신러닝의 분류 문제에서 왜 '교차 엔트로피'를 최소화하는 것이 정답 분포에 가까워지는 것인지 분석
  • Implement: 두 확률 분포 사이의 KL-발산 수치를 계산하여 모델의 개선 정도를 측정하는 엔진

Advanced

Core: 채널 용량과 에러 정정의 기초 (Channel Physics)

  • Why to Learn: 통신 환경의 물리적 노이즈를 극복하고 완벽한 데이터 전달을 보장하기 위해서입니다.
  • What to Learn:
    • 이진 대칭 채널(BSC)과 이진 삭제 채널(BEC)의 물리적 모델링
    • 샤논의 채널 코딩 정리(Noisy-channel coding theorem)
    • 채널 용량(CC): 대역폭과 신호 대 잡음비(SNR)가 결정짓는 정보 전송의 임계치
  • How to Learn:
    • 샤논-하틀리 공식을 통해 통신망의 물리적 속도 한계가 Wlog2(1+S/N)W \log_2(1+S/N) 임을 수치적으로 계산 연습
    • 신호에 리던던시(Redundancy)를 추가했을 때 엔트로피가 어떻게 변하며 에러가 복구되는지 원리 탐구
  • Implement: 특정 에러율을 가진 가상 채널에서 데이터를 전송하고 체크섬/코드를 통해 복구율을 테스트하는 시뮬레이터

7. Terminology

Term (EN / ko, abbr) 1문장 정의 단계(기본/권장/실무/심화) 역할/맥락 관련 개념 유사/대비/함께 사용 오해 포인트 Evidence(Primary/Secondary/Industry) Flags(core)
Entropy 확률 변수의 평균적인 불확실성 혹은 정보를 나타내는 물리적 수치입니다. 기본 척도 정의 Probability Disorder '에너지 소모'와 혼동 P1:CS2023/Probability core
Redundancy 정보의 손실을 막기 위해 원본 데이터에 추가적으로 덧붙여진 물리적 여유분입니다. 추천 에러 방지 Parity Checksum '단순한 중복'으로 오해 Industry std core
KL Divergence 두 확률 분포 간의 차이를 정보론적 관점에서 수치화한 거리 유사도 물리입니다. 실무 거리 측정 Cross-Entropy Loss Function 대칭적인 '거리'로 오해 P4 core
Channel Capacity 노이즈가 섞인 통신로를 통해 정보를 오류 없이 보낼 수 있는 물리적 최고 속도입니다. 심화 한계 규정 SNR Bandwidth 단순히 '하드웨어 스펙'으로 오해 Industry std core

8. References

Primary

Secondary

  • [Elements of Information Theory] Cover & Thomas — The "Standard Bible" of information theory.
  • [A Mathematical Theory of Communication] Claude Shannon — The original 1948 seminal paper.

Industry

  • [Shannon-Hartley Theorem in LTE/5G] — Industry application of channel capacity.
  • [Lossless Compression Standards Guide (Zlib/Gzip)] — Practical source coding.

9. Final Checklist

Primary

  • 사건의 확률 P(x)P(x)가 낮을수록 정보량 I(x)I(x)가 지수적으로 증가하는 물리적 필연성을 설명할 수 있는 가? (P1)
  • 엔트로피 수식 P(x)log(1/P(x))\sum P(x) \log (1/P(x))의 기댓값 구조를 분석하여 무질서도를 수치화할 수 있는 가? (P1)

Secondary

  • 엔트로피와 교차 엔트로피의 차이가 KL-발산임을 수식으로 전개하고 그 기하학적 의미를 소통 가능한가?
  • 기호의 빈도가 다를 때 고정 길이 부호(Fixed-length)보다 가변 길이 부호가 왜 더 효율적인지 물리적으로 입증 가능한가?

Industry

  • 마이크로서비스 간 데이터 전송 시, 페이로드의 엔트로피를 분석하여 추가적인 압축 알고리즘 도입 여부를 결정할 수 있는 가? (SFIA)
  • 딥러닝 모델의 손실 함수로 Cross-Entropy를 사용할 때, 예측 분포가 실제 분포와 일치해지는 지점의 수리적 특성을 분석할 수 있는 가?