Transformer Architecture

"Attention Is All You Need"(2017)에서 제안된 아키텍처. RNN의 순차 처리를 Self-Attention으로 대체하여 병렬 학습과 장거리 의존성 포착을 동시에 달성. 입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관련성을 계산: `√d_k`...

sys.entry

M

Me

hyunyoun's Blog

machine-learning-ai2026-04-191 min read

Transformer Architecture

"Attention Is All You Need"(2017)에서 제안된 아키텍처. RNN의 순차 처리를 Self-Attention으로 대체하여 병렬 학습과 장거리 의존성 포착을 동시에 달성.

Self-Attention 메커니즘

입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관련성을 계산:

CODE

Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V

Q (Query): 현재 토큰이 무엇을 찾는가
K (Key):   각 토큰이 어떤 정보를 제공하는가
V (Value): 실제 정보 내용

√d_k로 나누는 이유: 차원이 커질수록 내적값이 커져 softmax가 포화(gradient 소실) → 스케일링으로 안정화.

Multi-Head Attention

동일 입력에 대해 h개의 독립 Attention을 병렬 수행 → 다양한 관계 패턴 동시 학습:

CODE

MultiHead = Concat(head₁, ..., headₕ) · Wᴼ

핵심 구성 요소

구성 요소	역할
Positional Encoding	순서 정보 주입 (Attention은 위치 불변)
Layer Normalization	학습 안정화 (Pre-norm이 현재 표준)
Feed-Forward Network	각 위치별 비선형 변환 (2-layer MLP)
Residual Connection	Gradient 흐름 보존, 깊은 층 학습 가능

연결 노트

ZK-LLM-Next-Token-Prediction — Transformer가 다음 토큰 확률을 출력하는 디코더
ZK-LLM-Embedding-Spaces — 토큰 임베딩이 Transformer의 입력
ZK-LLM-Scaling-Laws — Transformer의 레이어/헤드 수가 스케일링 파라미터
ZK-LLM-Fine-Tuning — LoRA는 Transformer 레이어의 가중치 행렬에 저순위 어댑터 삽입

Concepts & Tags

#transformer #self-attention #llm #deep-learning #attention-mechanism