콘텐츠로 바로가기

LLM Scaling Laws

모델 파라미터(N), 학습 데이터(D), 연산량(C)이 증가할수록 손실(Loss)이 멱함수적으로 감소하는 경험적 법칙. 2022년 DeepMind 연구: 고정 연산 예산 하에서 N과 D를 **1:1 비율**로 함께 키울 때 최적 성능. 이전 GPT-3 패러다임(모...

sys.entry
M

Me

hyunyoun's Blog

machine-learning-ai1 min read

LLM Scaling Laws

모델 파라미터(N), 학습 데이터(D), 연산량(C)이 증가할수록 손실(Loss)이 멱함수적으로 감소하는 경험적 법칙.

Chinchilla 최적 비율

2022년 DeepMind 연구: 고정 연산 예산 하에서 N과 D를 1<1> 비율로 함께 키울 때 최적 성능.

CODE
N_optimal ≈ D_optimal (파라미터 수 ≈ 학습 토큰 수)
예: 70B 모델 → 1.4T 토큰 학습이 최적

이전 GPT-3 패러다임(모델만 크게)이 데이터 효율이 낮았음을 입증.

창발(Emergent Abilities)

특정 스케일 임계값을 넘으면 예측 못했던 능력이 갑자기 발현:

  • Chain-of-Thought 추론
  • 산술 연산
  • 다국어 번역

창발이 불연속적이라는 점이 Scaling Laws의 핵심 미스터리.

실무 함의

  • 작은 모델로 실험 → 로그 스케일 외삽으로 큰 모델 성능 예측 가능
  • 데이터 품질이 데이터 양만큼 중요 (오염 데이터는 법칙을 깨뜨림)

연결 노트