Modern Transformer Architectures

1. Overview

현대 트랜스포머 아키텍처(Modern Transformer Architectures, MTA)는 시간의 순차적 흐름에 갇혔던 지능을 해방시켜, 수천 개의 단어 사이의 유기적 연결을 수리적으로 한눈에 포착하여 병렬로 처리하는 '전역적 관계 물리학'입니다.

학습자는 정보들 사이의 '중요도'를 수치로 환산하여 어디에 집중할지 물리적으로 결정하는 **어텐션(Attention)**의 원리와, 순환 없이도 데이터의 위치 정보를 주입하는 **포지셔널 인코딩(Positional Encoding)**의 수리적 수순을 배웁니다. 특히, 수십억 개의 파라미터가 거대 하드웨어 클러스터에서 동시에 학습되는 **확장성( $Scalability$ )**의 물리적 원리를 익힙니다. 이를 통해 BERT, GPT 등 현대 문명을 바꾸는 생성형 AI의 수리적 뼈대를 구축하는 하이엔드 모델 거버넌스 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

Self-Attention Mechanics: Query, Key, Value의 수리적 상호작용을 통한 물리적 가중치 산출
Multi-Head Structure: 서로 다른 수치적 관점을 가진 여러 개의 '눈'으로 데이터를 물리 투사
Encoder-Decoder Logic: 이해(Encoder)와 생성(Decoder)을 담당하는 수리적 모듈의 결합
Scaling Laws: 모델의 수치적 크기가 물리적 성능 지능으로 어떻게 전이되는지에 대한 이론
Position Dynamics: 순차적 정보를 수리적 주기 함수로 물리 변환하여 주입하는 기제

Out-of-Scope

이전 세대의 순차적 순환 처리 기법 (11-02-03 RDP 영역에서 분담)
트랜스포머를 활용한 실제 서비스 배포 및 인프라 (11-04-XX 영역에서 분담)

Boundaries

MTA vs. RNN: RNN이 과거를 하나씩 물리적으로 읊어가며 기억한다면, MTA는 모든 시점의 데이터를 수리적 행렬 연산 하나로 한꺼번에 처리하여 하드웨어 병렬성을 극대화한다는 점에 집중하여 구분합니다.

3. Counterexample

단순히 "빠른 RNN"이라 설명하는 것은 MTA 학습이 아닙니다. 왜 셀프 어텐션은 거리와 상관없이 수리적 관계를 1단계( $O(1)$ ) 만에 찾아내는지 물리적 증명을 할 수 있어야 하며, 포지셔널 인코딩이 단순한 순서 번호가 아니라 '수리적 거리의 상대성'을 물리적으로 보존하는 기조임을 논증하지 못한다면 트랜스포머의 본질을 이해하지 못한 것입니다.

4. Prerequisites

Neural Network Foundations (Basic): 11-02-01의 다층 레이어 및 소프트맥스 수렴 이해가 필수입니다.
Matrix Operations (Basic): 02-06-XX의 행렬 곱셈 및 전치(Transpose) 이해가 필수입니다.

5. Learning Map

Focusing Power: 데이터 간의 수리적 연관성을 수치화하여 '집중(Attention)'하는 물리 원리를 배웁니다.
Parallel World: 고정된 시간 순서를 깨고, 모든 정보를 동시에 하드웨어 연산 장치에 쏟아붓습니다.
Multi-Perspective Logic: 여러 명의 전문가(Head)가 각기 다른 수리적 해석을 물리적으로 병합합니다.
Foundational Intelligence: 인류의 데이터 전체를 단일 수리 아키텍처로 흡수하는 하이엔드 지능 체계를 완성합니다.

6. Learning Topics

Basic

Core: 셀프 어텐션과 QKV 역학 (Attention Physics)

Why to Learn: 문장에서 "그것(It)"이 무엇을 사치적으로 가리키는지 하드웨어가 물리적으로 찾아내게 하기 위해서입니다.
What to Learn:
- Query, Key, Value: 질문, 대상, 내용으로 치사되는 수리적 정보 분할
- Dot-product Attention: 두 벡터 사이의 물리적 유사성을 수치화하는 가장 빠른 기제
- Scaling Factor ( $\sqrt{d_k}$ ): 수치가 너무 커져서 미분값이 소멸하는 것을 방지하는 물리적 안전장치
How to Learn:
- "The animal didn't cross the street because it was too tired" 문장에서 'it'이 어느 단어에 수리적으로 강하게 어텐션되는지 시각화 실습
- $Q \times K^T$ 연산의 수치적 의미가 '물리적 정렬도'임을 수학적으로 분석 훈련
Implement: 입력 벡터들을 받아 어텐션 스코어 수치를 뱉어내는 기초 Attention_Head

Why to Learn: 단순한 관계 찾기를 넘어, 문맥의 다각도적 의미와 선후 물리 관계를 완벽히 수리 복원하기 위함입니다.
What to Learn:
- Multi-Head Attention: 8~16개의 독립적인 어런션 수치를 병렬로 구해 물리적 통찰력을 확장
- Sine/Cosine Encoding: 단어의 물리적 위치를 수리적 주기성에 고정하여 순환층 없이도 순서 인식
- Feed-Forward Net (FFN): 각 단어의 수리를 개별적으로 물리 강화하는 뒤쪽 레이어 공정
How to Learn:
- 특정 단어 시퀀스를 뒤섞었을 때, 인코딩 수치가 어떻게 바뀌어 하드웨어가 이를 물리적으로 다르게 인식하는지 연구
- **숏컷 커넥션(Residual)**이 트랜스포머의 학습 안정성을 수리적으로 보증하는 물리적 과정 분석 실습
Implement: 위치 정보를 수평적으로 주입하는 Positional_Generator

Practical

Core: BERT, GPT 및 전이 학습 (Modern Architectures)

Why to Learn: 이미 인류 지식을 학습한 하이엔드 '거대 뇌'를 가져와 실제 물리 문제를 즉각 해결하기 위해서입니다.
What to Learn:
- Encoder-only (BERT): 문맥 전체를 양방향 수리 분석하여 의미를 추출하는 물리 최적화
- Decoder-only (GPT): 이전 단어들로부터 다음 물리적 단어를 수리적으로 생성하는 자동 회귀(Auto-regressive)
- Masking Strategy: 미래의 수리 정답을 보지 못하게 물리적으로 가려 학습하는 기제
How to Learn:
- Hugging Face 라이브러리를 사용하여 BERT 모델의 수치 가중치를 불러와 긍정/부정 물리 분류 수행 실습
- 소스 문장이 타겟 문장으로 수리 변환되는 **크로스 어텐션(Cross Attention)**의 물리적 흐름 추적 훈련
Implement: 특정 작업을 위해 사전 학습된 가중치를 튜닝하는 FineTune_Adapter

Advanced

Core: 효율적 트랜스포머와 롱컨텍스트 (Extended Mechanics)

Why to Learn: $O(N^2)$ 이라는 거대한 수리적 연산 비용을 물리적으로 줄여 수만 장의 문서를 한 번에 읽기 위함입니다.
What to Learn:
- Linear Attention / Flash Attention: 하드웨어 메모리 접근을 수리적으로 최적화하여 물리 속도를 높이는 법
- Slidng Window / Sparse Attention: 중요한 수치들만 물리적으로 골라 어텐션하여 연산 하중 절감
- Scaling Laws of LLMs: 모델의 수치 파라미터가 임계값을 넘을 때 발생하는 '창발적 지능' 물리 분석
How to Learn:
- 시퀀스 길이가 2배 늘 때 하드웨어 GPU 메모리 점유 수치가 4배 이상 치솟는 수리적 역설 해소 실습
- RoPE (Rotary Embedding) 수치가 왜 먼 거리의 단어 간 물리적 인지를 가능하게 하는지 수학적 분석 훈련
Implement: $O(N \log N)$ 이하의 복고 수치 연산을 지향하는 기초 Lightweight_Attention

7. Terminology

Term (EN / ko, abbr)	1문장 정의	단계(기본/권장/실무/심화)	역할/맥락	관련 개념	유사/대비/함께 사용	오해 포인트	Evidence(Primary/Secondary/Industry)	Flags(core)
Self-Attention	시퀀스 내의 각 요소들이 자신을 포함한 모든 요소와의 수리적 연관성을 물리적으로 계산하는 기제입니다.	기본	핵심 로직	QKV / Score	RNN	전체를 동시 참조함	P1:CS2023	core
Encoder	입력 데이터를 고차원적인 수리적 추상 벡터로 물리 변환하여 의미를 파악하는 트랜스포머의 전반부입니다.	추천	의미 추출	BERT / Latent	Decoder	분류와 이해에 특화됨	P1:CS2023	core
Decoder	인코더의 정보와 이전 생성 수치를 결합하여 새로운 데이터를 물리적으로 생성해 내는 생성 모듈입니다.	추천	데이터 생성	GPT / AR	Encoder	미래를 예측하는 생성기임	P1:CS2023	core
Multi-head	여러 개의 독립적인 수리적 어텐션 유닛을 병렬 구동하여 시퀀스의 다층적 물리 관계를 포착하는 구조입니다.	실무	정보 확장	Ensemble / Head	Single Head	관점의 다양성을 부여함	P1:CS2023	core

8. References

Primary

[P1] CS2023 - Artificial Intelligence (AI) - Transformers & Modern Architectures — Academic curricula.
[P4] DS-BoK (EDSF) - Data Analytics / Large Language Modeling — Definition of modeling competency.

Secondary

[Attention Is All You Need] Vaswani et al. — The founding research paper of MTA.
[Hugging Face Course] — Practical guide to modern Transformer implementations.

Industry

[Google Research: The Transformer model] — Reference architecture details.
[OpenAI: GPT-3 Technical Report] — Insights into scaling laws and performance.

9. Final Checklist

Primary

'셀프 어텐션'의 수리적 수순이 어떻게 시퀀스의 '장기 의존성 파괴'를 물리적으로 해결하는지 설명 가능한가? (P1)
'소프트맥스' 수치가 어텐션 결과를 '물리적 가중치'로 어떻게 변환시키는지 수학적으로 기술할 수 있는 가? (P1)

Secondary

'순방향 전파( $Feedforward$ )' 레이어가 추출된 수리 관계를 물리적으로 어떻게 강화하는지 소통 가능한가?
BERT의 양방향 수리 학습과 GPT의 단방향 생성 학습 사이의 물리적 활용도 차이를 논언할 수 있는 가?

Industry

실무 대규모 훈련 시 '멀티 GPU' 하드웨어에서 트랜스포머의 행렬 연산을 어떻게 물리 배분할지 제안할 수 있는 가? (SFIA)
Flash Attention 적용 전후의 하드웨어 메모리 대역폭( $Bandwidth$ ) 수치 변화를 물리적으로 분석할 수 있는 가?

Modern Transformer Architectures

1. Overview

2. Scope & Boundaries

In-Scope

Out-of-Scope

Boundaries

3. Counterexample

4. Prerequisites

5. Learning Map

6. Learning Topics

Basic

Core: 셀프 어텐션과 QKV 역학 (Attention Physics)

Recommended

Core: 멀티헤드와 포지셔널 인코딩 (Structural Dynamics)

Practical

Core: BERT, GPT 및 전이 학습 (Modern Architectures)

Advanced

Core: 효율적 트랜스포머와 롱컨텍스트 (Extended Mechanics)

7. Terminology

8. References

Primary

Secondary

Industry

9. Final Checklist

Primary

Secondary

Industry

Concepts & Tags