LLM Foundations & Token Physics
방대한 텍스트 데이터를 수리적으로 압축하여 언어의 통계적 지도를 구축하고, 문자를 수치적 단위(Token)로 분해하며 다음 단어를 예측하는 거대 언어 모델의 물리적 근간을 다룹니다.
sys.entry
M
Me
hyunyoun's Blog
posts7 min read
1. Overview
LLM 기초 및 토큰 물리학(LLM Foundations & Token Physics, LTP)은 인류가 기록한 방대한 텍스트 정보를 수리적인 '고차원 의미 지도'로 물리 압축하여, 기계가 언어의 맥락을 수치적으로 이해하고 생성하게 만드는 '확률적 언어 지형 물리학'입니다.
학습자는 문자를 하드웨어가 연산 가능한 수치 단위로 쪼개는 **토큰화(Tokenization)**의 수리적 공정과, 단어의 의미를 수만 차원의 물리적 공간에 좌표로 찍는 **임베딩(Embedding)**의 원리를 배웁니다. 특히, 이전의 모든 정보를 바탕으로 '다음에 올 가장 물리적 개연성 높은 수치'를 맞히는 **다음 토큰 예측(Next-Token Prediction)**의 수리적 수순을 익힙니다. 이를 통해 단순한 텍스트 처리를 넘어 '지능형 생성'의 원천이 되는 하이엔드 언어 모델 거버넌스 역량을 확보합니다.
2. Scope & Boundaries
In-Scope
- Statistical Language Modeling: 텍스트의 출현 빈도를 물리적 확률 수치로 모델링하는 기제
- Tokenization Dynamics: Byte Pair Encoding (BPE) 등을 통한 문자의 수리적 최적 분할
- Embedding Spaces: 단어 간의 물리적 유사성을 수리적 거리(Cosine Similarity)로 표현하는 법
- Next-Token Prediction: 자동 회귀(Auto-regressive) 방식으로 정보를 물리 생성하는 수순
- Scaling Components: 모델 매개변수()와 데이터 크기()가 수리적 지능으로 전이되는 물리 법칙
Out-of-Scope
- 모델의 미세 조정(Fine-tuning) 및 정렬 기술 (11-03-03 FTMA 영역에서 분담)
- 텍스트 외의 이미지, 음성 등 다중 모달리티 결합 (11-03-04 MTAE 영역에서 분담)
Boundaries
- LTP vs. Classical NLP: 기존 NLP가 문법 중심의 수동 규칙을 가졌다면, LTP는 거대한 하드웨어 자원을 투입하여 데이터 스스로 수리적 의미 체계를 구축하게 만든다는 점에 집중하여 구분합니다.
3. Counterexample
- 단순히 "글을 잘 쓰는 AI"라 설명하는 것은 LTP 학습이 아닙니다. 왜 토큰 수치가 하나만 바뀌어도 문장 전체의 물리적 의미가 수리적으로 전락하는지 증명할 수 있어야 하며, 토큰화 과정에서 '희귀한 단어'가 수치적으로 어떻게 분해되어 하드웨어 메모리 효율을 물리적으로 높이는지 논증하지 못한다면 거대 언어 모델의 본질을 이해하지 못한 것입니다.
4. Prerequisites
- Modern Transformer Architectures (Basic): 11-02-04의 셀프 어텐션 및 QKV 역학 이해가 필수입니다.
- Data Structures (Basic): 04-XX-XX의 해시 맵 및 가변 길이 배열 처리 이해가 필수입니다.
5. Learning Map
- Deconstructing Text: 문장을 수치화된 '토큰'이라는 물리적 원자로 분해하는 법을 배웁니다.
- Meanings in Space: 추상적인 개념을 수만 차원의 수리적 좌표로 물리 고정합니다.
- The Prophetic Loop: 오직 '다음 토큰'이라는 수치 하나에 집중하여 거대한 지능을 물리 창발시킵니다.
- Foundational Governance: 언어의 통계적 구조를 수리적으로 지배하여 하이엔드 생성 엔진을 완성합니다.
6. Learning Topics
Basic
Core: 토큰화와 수치적 텍스트 (Token Physics)
- Why to Learn: 기계는 글자를 읽지 못하므로, 모든 텍스트를 연산 가능한 하드웨어 수치로 물리 변환해야 하기 때문입니다.
- What to Learn:
- Byte Pair Encoding (BPE): 자주 나오는 문자 쌍을 묶어 수리적 어휘집(Vocabulary)을 구축하는 법
- Vocabulary Size (): 어휘집의 수치적 크기와 하드웨어 임베딩 레이어의 물리적 상관관계
- Out-of-Vocabulary (OOV): 모르는 단어를 수리적으로 분해하여 물리적 인식을 유지하는 기제
- How to Learn:
Tiktoken라이브러리를 사용하여 "안녕하세요"라는 문장이 물리적으로 몇 개의 토큰 수치로 나뉘는지 확인 실습- 어휘집 수치를 30,000에서 100,000으로 늘렸을 때 하드웨어 메모리가 수리적으로 어떻게 배가되는지 분석
- Implement: 텍스트를 입력받아 토큰 ID 배열로 물리 변환하는 기초
SimpleTokenizer
Recommended
Core: 임베딩과 벡터 공간 (Embedding Dynamics)
- Why to Learn: "왕 - 남자 + 여자 = 여왕"과 같이 단어 간의 물리적 의미 관계를 수리적으로 연산하기 위함입니다.
- What to Learn:
- Word2Vec & Contextual Embedding: 주변 토큰들과의 물리적 인접도를 수리 가중치로 치환
- Vector Dimensions (): 의미를 담는 수리적 그릇의 물리적 깊이와 정교함
- Cosine Similarity: 두 의미 벡터가 물리적으로 같은 방향을 향하는지 수치적으로 측정하는 법
- How to Learn:
- 수천 개의 단어 임베딩을 2차원 평면에 물리 투사하여, '과일' 관련 토큰들이 수리적으로 뭉쳐 있는지 확인 실습
- 임베딩 수치의 **정규화(Normalization)**가 수리적 내적 연산의 물리 안정성에 미치는 영향 연구
- Implement: 두 토큰 사이의 수리적 유사도를 물리 계산하는
SemanticDistancer
Practical
Core: 사전 학습과 손실 함수 (Pre-training Mechanics)
- Why to Learn: 인터넷의 모든 지식을 하나의 하이엔드 수리 모델에 담는 '거대 학습 공정'을 이해하기 위해서입니다.
- What to Learn:
- Causal Language Modeling: 왼쪽에서 오른쪽으로만 정보를 물리 흐르게 하는 수리적 제약
- Cross-Entropy Loss: 정답 토큰의 물리적 확률을 100%에 가깝게 수리 밀어올리는 기제
- Data Cleansing: 쓰레기 텍스트를 물리적으로 걸러내어 수리적 지능의 순도를 높이는 법
- How to Learn:
- 공개된 데이터셋(Wiki 등)을 사용하여, 다음 토큰을 맞힐 때마다 수리적 오차()가 줄어드는 과정 확인 실습
- 데이터 중복(Deduplication) 수치가 모델의 기억(Memorization) 하중을 물리적으로 어떻게 줄이는지 훈련
- Implement: 대량의 텍스트 파일에서 토큰 시퀀스를 수치화하여 공급하는
TrainingSequence_Loader
Advanced
Core: 스케일링 법칙과 창발적 지능 (LLM Scaling Laws)
- Why to Learn: 왜 파라미터 수치가 일정 수준을 넘어야만 비로소 '추론'이라는 물리 지능이 나타나는지 이해하기 위함입니다.
- What to Learn:
- Chinchilla Scaling: 파라미터 수()와 토큰 수()의 물리적 황금 비율 탐색
- Emergent Properties: 작은 모델에는 없던 수리적 능력(수학, 코드 등)이 큰 모델에서 물리적으로 발현되는 임계점
- Quantization Physics: 수조 개의 수치를 8bit나 4bit로 물리 압축하여 하드웨어 효율을 극대화하는 법
- How to Learn:
- 모델의 파라미터 수치를 10배 늘렸을 때, 물리적 성능이 지수 함수적으로 향상되는 수리 궤적 분석 실습
- FP16과 INT8 연산 시 소수점 아래 수치 누락이 모델의 물리적 지능에 미치는 수리적 손실 연구
- Implement: 모델의 수치 정밀도를 강제로 낮추어 메모리 점유 수치를 줄이는 기초
PhysicsQuantizer
7. Terminology
8. References
Primary
- [P4] DS-BoK (EDSF) - Data Science / Language Representation — Definition of tokenization metrics.
- [P1] CS2023 - Artificial Intelligence (AI) - Large Language Foundations — Academic curricula.
Secondary
- [Speech and Language Processing] Daniel Jurafsky — The definitive NLP textbook updated for LLMs.
- [Hugging Face Course: NLP course] — Practical guide to tokenizers and datasets.
Industry
- [OpenAI Blog: New models and developer tools (Scaling Laws)] — Practical insights into model sizing.
- [Anthropic: Contextual Embeddings] — Advanced embedding techniques and metrics.
9. Final Checklist
Primary
- '토큰화' 과정에서 발생하는 '어휘집 소외' 문제를 수리적 BPE 기법이 물리적으로 어떻게 해결하는지 설명 가능한가? (P4)
- '임베딩 차원' 수치가 모델의 '의미적 세밀함'과 하드웨어 연산량 사이에서 갖는 수리적 트레이드오프를 기술할 수 있는 가? (P1)
Secondary
- '다음 토큰 예측'이 단순한 수치 비교를 넘어 어떻게 인공지능의 '물리적 추론'으로 치환되는지 소통 가능한가?
- Chinchilla 법칙에 기반하여 가용 GPU 하드웨어 예산에 맞는 최적의 파라미터 수치를 논증할 수 있는 가?
Industry
- 실무 서비스에서 특정 도메인(의료 등)의 수리 모델 성능을 높이기 위해 토큰 수치를 어떻게 물리 재정의할지 제안할 수 있는 가? (SFIA)
- Quantization 적용 시 모델의 물리적 '지능 지수(PPL)' 수치가 하드웨어 이득 대비 얼마나 허용 가능한지 분석할 수 있는 가?