Transformer Architecture
"Attention Is All You Need"(2017)에서 제안된 아키텍처. RNN의 순차 처리를 Self-Attention으로 대체하여 병렬 학습과 장거리 의존성 포착을 동시에 달성. 입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관련성을 계산: `√d_k`...
sys.entry
M
Me
hyunyoun's Blog
machine-learning-ai1 min read
Transformer Architecture
"Attention Is All You Need"(2017)에서 제안된 아키텍처. RNN의 순차 처리를 Self-Attention으로 대체하여 병렬 학습과 장거리 의존성 포착을 동시에 달성.
Self-Attention 메커니즘
입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관련성을 계산:
CODE
Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V
Q (Query): 현재 토큰이 무엇을 찾는가
K (Key): 각 토큰이 어떤 정보를 제공하는가
V (Value): 실제 정보 내용
√d_k로 나누는 이유: 차원이 커질수록 내적값이 커져 softmax가 포화(gradient 소실) → 스케일링으로 안정화.
Multi-Head Attention
동일 입력에 대해 h개의 독립 Attention을 병렬 수행 → 다양한 관계 패턴 동시 학습:
CODE
MultiHead = Concat(head₁, ..., headₕ) · Wᴼ
핵심 구성 요소
연결 노트
- ZK-LLM-Next-Token-Prediction — Transformer가 다음 토큰 확률을 출력하는 디코더
- ZK-LLM-Embedding-Spaces — 토큰 임베딩이 Transformer의 입력
- ZK-LLM-Scaling-Laws — Transformer의 레이어/헤드 수가 스케일링 파라미터
- ZK-LLM-Fine-Tuning — LoRA는 Transformer 레이어의 가중치 행렬에 저순위 어댑터 삽입