Next-Token Prediction

LLM의 유일한 학습 목표: 이전 토큰 시퀀스를 조건으로 다음 토큰의 확률 분포를 예측. 각 위치에서 어휘집 전체에 대한 softmax 확률 벡터를 출력. Cross-entropy loss로 실제 토큰과 비교하여 역전파. 추론 시 예측한 토큰을 컨텍스트에 추가하여...

Next-Token Prediction

LLM의 유일한 학습 목표: 이전 토큰 시퀀스를 조건으로 다음 토큰의 확률 분포를 예측.

수리적 정의

CODE

P(t_n | t_1, t_2, ..., t_{n-1})

각 위치에서 어휘집 전체에 대한 softmax 확률 벡터를 출력. Cross-entropy loss로 실제 토큰과 비교하여 역전파.

자동 회귀(Autoregressive) 생성

추론 시 예측한 토큰을 컨텍스트에 추가하여 다시 입력 → 반복으로 텍스트 생성:

CODE

"나는" → [어휘집 확률] → "좋아" 샘플링
"나는 좋아" → [어휘집 확률] → "한다" 샘플링

Temperature: 확률 분포의 첨도 조절. 낮으면 결정론적, 높으면 창의적.

창발적 능력

단순 다음 토큰 예측만으로 번역, 요약, 코딩, 추론이 창발하는 이유: 방대한 데이터에서 세계 지식의 압축적 표현이 파라미터에 인코딩되기 때문.

연결 노트

ZK-LLM-Tokenization — 입력 시퀀스는 토큰 ID의 배열
ZK-LLM-Embedding-Spaces — 토큰 ID를 벡터로 변환 후 Transformer에 입력
ZK-LLM-Scaling-Laws — 파라미터와 데이터 규모가 예측 정확도와 창발을 결정
ZK-ReAct-Pattern — 에이전트의 Thought/Action을 다음 토큰 예측으로 생성

Next-Token Prediction

수리적 정의

자동 회귀(Autoregressive) 생성

창발적 능력

연결 노트

Concepts & Tags