Next-Token Prediction
LLM의 유일한 학습 목표: 이전 토큰 시퀀스를 조건으로 다음 토큰의 확률 분포를 예측. 각 위치에서 어휘집 전체에 대한 softmax 확률 벡터를 출력. Cross-entropy loss로 실제 토큰과 비교하여 역전파. 추론 시 예측한 토큰을 컨텍스트에 추가하여...
sys.entry
M
Me
hyunyoun's Blog
machine-learning-ai1 min read
Next-Token Prediction
LLM의 유일한 학습 목표: 이전 토큰 시퀀스를 조건으로 다음 토큰의 확률 분포를 예측.
수리적 정의
CODE
P(t_n | t_1, t_2, ..., t_{n-1})
각 위치에서 어휘집 전체에 대한 softmax 확률 벡터를 출력. Cross-entropy loss로 실제 토큰과 비교하여 역전파.
자동 회귀(Autoregressive) 생성
추론 시 예측한 토큰을 컨텍스트에 추가하여 다시 입력 → 반복으로 텍스트 생성:
CODE
"나는" → [어휘집 확률] → "좋아" 샘플링
"나는 좋아" → [어휘집 확률] → "한다" 샘플링
Temperature: 확률 분포의 첨도 조절. 낮으면 결정론적, 높으면 창의적.
창발적 능력
단순 다음 토큰 예측만으로 번역, 요약, 코딩, 추론이 창발하는 이유: 방대한 데이터에서 세계 지식의 압축적 표현이 파라미터에 인코딩되기 때문.
연결 노트
- ZK-LLM-Tokenization — 입력 시퀀스는 토큰 ID의 배열
- ZK-LLM-Embedding-Spaces — 토큰 ID를 벡터로 변환 후 Transformer에 입력
- ZK-LLM-Scaling-Laws — 파라미터와 데이터 규모가 예측 정확도와 창발을 결정
- ZK-ReAct-Pattern — 에이전트의 Thought/Action을 다음 토큰 예측으로 생성