LLM Scaling Laws

모델 파라미터(N), 학습 데이터(D), 연산량(C)이 증가할수록 손실(Loss)이 멱함수적으로 감소하는 경험적 법칙. 2022년 DeepMind 연구: 고정 연산 예산 하에서 N과 D를 **1:1 비율**로 함께 키울 때 최적 성능. 이전 GPT-3 패러다임(모...

sys.entry

M

Me

hyunyoun's Blog

machine-learning-ai2026-04-191 min read

LLM Scaling Laws

모델 파라미터(N), 학습 데이터(D), 연산량(C)이 증가할수록 손실(Loss)이 멱함수적으로 감소하는 경험적 법칙.

Chinchilla 최적 비율

2022년 DeepMind 연구: 고정 연산 예산 하에서 N과 D를 1<1> 비율로 함께 키울 때 최적 성능.

CODE

N_optimal ≈ D_optimal (파라미터 수 ≈ 학습 토큰 수)
예: 70B 모델 → 1.4T 토큰 학습이 최적

이전 GPT-3 패러다임(모델만 크게)이 데이터 효율이 낮았음을 입증.

창발(Emergent Abilities)

특정 스케일 임계값을 넘으면 예측 못했던 능력이 갑자기 발현:

Chain-of-Thought 추론
산술 연산
다국어 번역

창발이 불연속적이라는 점이 Scaling Laws의 핵심 미스터리.

실무 함의

작은 모델로 실험 → 로그 스케일 외삽으로 큰 모델 성능 예측 가능
데이터 품질이 데이터 양만큼 중요 (오염 데이터는 법칙을 깨뜨림)

연결 노트

ZK-LLM-Next-Token-Prediction — 스케일이 커질수록 예측 손실이 감소
ZK-LLM-Embedding-Spaces — 파라미터 증가 = 임베딩 공간의 표현력 증가
ZK-ReAct-Pattern — 창발적 추론 능력이 에이전트 루프의 기반

Concepts & Tags

#llm #scaling #emergent-behavior #chinchilla #pre-training