LLM Scaling Laws
모델 파라미터(N), 학습 데이터(D), 연산량(C)이 증가할수록 손실(Loss)이 멱함수적으로 감소하는 경험적 법칙. 2022년 DeepMind 연구: 고정 연산 예산 하에서 N과 D를 **1:1 비율**로 함께 키울 때 최적 성능. 이전 GPT-3 패러다임(모...
sys.entry
M
Me
hyunyoun's Blog
machine-learning-ai1 min read
LLM Scaling Laws
모델 파라미터(N), 학습 데이터(D), 연산량(C)이 증가할수록 손실(Loss)이 멱함수적으로 감소하는 경험적 법칙.
Chinchilla 최적 비율
2022년 DeepMind 연구: 고정 연산 예산 하에서 N과 D를 1<1>1> 비율로 함께 키울 때 최적 성능.
CODE
N_optimal ≈ D_optimal (파라미터 수 ≈ 학습 토큰 수)
예: 70B 모델 → 1.4T 토큰 학습이 최적
이전 GPT-3 패러다임(모델만 크게)이 데이터 효율이 낮았음을 입증.
창발(Emergent Abilities)
특정 스케일 임계값을 넘으면 예측 못했던 능력이 갑자기 발현:
- Chain-of-Thought 추론
- 산술 연산
- 다국어 번역
창발이 불연속적이라는 점이 Scaling Laws의 핵심 미스터리.
실무 함의
- 작은 모델로 실험 → 로그 스케일 외삽으로 큰 모델 성능 예측 가능
- 데이터 품질이 데이터 양만큼 중요 (오염 데이터는 법칙을 깨뜨림)
연결 노트
- ZK-LLM-Next-Token-Prediction — 스케일이 커질수록 예측 손실이 감소
- ZK-LLM-Embedding-Spaces — 파라미터 증가 = 임베딩 공간의 표현력 증가
- ZK-ReAct-Pattern — 창발적 추론 능력이 에이전트 루프의 기반