콘텐츠로 바로가기

Transformer Architecture

"Attention Is All You Need"(2017)에서 제안된 아키텍처. RNN의 순차 처리를 Self-Attention으로 대체하여 병렬 학습과 장거리 의존성 포착을 동시에 달성. 입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관련성을 계산: `√d_k`...

sys.entry
M

Me

hyunyoun's Blog

machine-learning-ai1 min read

Transformer Architecture

"Attention Is All You Need"(2017)에서 제안된 아키텍처. RNN의 순차 처리를 Self-Attention으로 대체하여 병렬 학습과 장거리 의존성 포착을 동시에 달성.

Self-Attention 메커니즘

입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관련성을 계산:

CODE
Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V

Q (Query): 현재 토큰이 무엇을 찾는가
K (Key):   각 토큰이 어떤 정보를 제공하는가
V (Value): 실제 정보 내용

√d_k로 나누는 이유: 차원이 커질수록 내적값이 커져 softmax가 포화(gradient 소실) → 스케일링으로 안정화.

Multi-Head Attention

동일 입력에 대해 h개의 독립 Attention을 병렬 수행 → 다양한 관계 패턴 동시 학습:

CODE
MultiHead = Concat(head₁, ..., headₕ) · Wᴼ

핵심 구성 요소

구성 요소 역할
Positional Encoding 순서 정보 주입 (Attention은 위치 불변)
Layer Normalization 학습 안정화 (Pre-norm이 현재 표준)
Feed-Forward Network 각 위치별 비선형 변환 (2-layer MLP)
Residual Connection Gradient 흐름 보존, 깊은 층 학습 가능

연결 노트