콘텐츠로 바로가기

Next-Token Prediction

LLM의 유일한 학습 목표: 이전 토큰 시퀀스를 조건으로 다음 토큰의 확률 분포를 예측. 각 위치에서 어휘집 전체에 대한 softmax 확률 벡터를 출력. Cross-entropy loss로 실제 토큰과 비교하여 역전파. 추론 시 예측한 토큰을 컨텍스트에 추가하여...

sys.entry
M

Me

hyunyoun's Blog

machine-learning-ai1 min read

Next-Token Prediction

LLM의 유일한 학습 목표: 이전 토큰 시퀀스를 조건으로 다음 토큰의 확률 분포를 예측.

수리적 정의

CODE
P(t_n | t_1, t_2, ..., t_{n-1})

각 위치에서 어휘집 전체에 대한 softmax 확률 벡터를 출력. Cross-entropy loss로 실제 토큰과 비교하여 역전파.

자동 회귀(Autoregressive) 생성

추론 시 예측한 토큰을 컨텍스트에 추가하여 다시 입력 → 반복으로 텍스트 생성:

CODE
"나는" → [어휘집 확률] → "좋아" 샘플링
"나는 좋아" → [어휘집 확률] → "한다" 샘플링

Temperature: 확률 분포의 첨도 조절. 낮으면 결정론적, 높으면 창의적.

창발적 능력

단순 다음 토큰 예측만으로 번역, 요약, 코딩, 추론이 창발하는 이유: 방대한 데이터에서 세계 지식의 압축적 표현이 파라미터에 인코딩되기 때문.

연결 노트