Deep Learning & Transformer
인간 뇌의 뉴런 구조를 수리적으로 모사하여 복잡한 비선형 데이터를 처리하고, 이미지와 시퀀스 데이터에서 물리적 특징을 자동 추출하는 딥러닝의 역학을 다루는 학습 노드입니다.
sys.entry
M
Me
hyunyoun's Blog
posts6 min read
1. Overview
딥러닝 및 신경망(Deep Learning & Neural Networks, DLN)은 여러 층의 수리적 레이어를 쌓아 데이터의 추상적인 물리 계층을 스스로 학습하는 '계층적 지능 물리학'입니다.
전통적인 머신러닝이 사람이 정의한 특징(Features)을 사용했다면, 딥러닝은 비선형 활성화 함수와 엄청난 양의 파라미터를 통해 특징 자체를 물리적으로 추출합니다. 학습자는 퍼셉트론부터 최신 트랜스포머에 이르기까지, 신경망이 오차 역전파(Backpropagation)를 통해 지능을 수치화하고 개선하는 물리적 시퀀스를 학습합니다. 이를 통해 고차원 인지 작업을 기계적으로 수행하는 시스템의 심장부를 이해합니다.
2. Scope & Boundaries
In-Scope
- Neural Foundations: 퍼셉트론, 다층 신경망(MLP), 활성화 함수(ReLU 등) 및 가중치 초기화 물리
- Optimization Mechanics: 오차 역전파(Backpropagation), 경사 하강법 변형(Adam 등), 정규화(Dropout) 물리
- Computer Vision Basics: 합성곱(Convolution), 풀링(Pooling) 레이어의 공간적 필터링 물리
- Sequential Mechanics: 순환 신경망(RNN), LSTM 및 어텐션(Attention) 기법의 시간적 상태 보존
Out-of-Scope
- LLM의 구체적인 파인튜닝 전략 (11-03 LLM 영역으로 위임)
- 데이터 센터 규모의 학습 인프라 구축 (11-04 MLOps 영역으로 위임)
Boundaries
- DLN vs. FML: FML(11-01)이 '통계적 규칙의 기본'을 다룬다면, DLN은 '심층 레이어를 통한 특징 추출 및 비선형 복잡성 해결'에 집중합니다.
3. Counterexample
- 단순히 PyTorch의
nn.Sequential을 쌓는 것은 DLN 학습이 아닙니다. 왜 레이어가 깊어질수록 기울기 소실(Vanishing Gradient) 현상이 물리적으로 발생하는지, 그리고 합성곱(Convolution) 연산이 완전 연결 레이어 대비 어떤 하드웨어적/수리적 이득을 갖는지 논리적으로 증명할 수 있어야 합니다.
4. Prerequisites
- 기초 기계 학습 (Basic): 경사 하강법과 손실 함수의 기본 수리 물리 개념이 필수입니다. (11-01. FML)
- 수리 및 컴퓨팅 논리 (Recommended): 행렬 연산(Matrix Multiplication)의 물리적 선형 변환 이해가 권장됩니다. (01. Mathematics)
5. Learning Map
- Bio-inspired Logic: 뉴런의 동작을 모사한 퍼셉트론과 레이어 적층의 물리적 필요성을 익힙니다.
- The Engine of Intelligence: 출력 오차가 입력 가중치로 다시 흐르며 학습을 일으키는 역전파의 수순을 이해합니다.
- Spatial Intelligence: 이미지를 수치 그리드로 보고 특징을 추출하는 CNN의 물리적 필터를 배웁니다.
- Temporal Dynamics: 데이터의 순서와 문맥을 상태값으로 유지하며 처리하는 시퀀스 모델링을 학습합니다.
6. Learning Topics
Basic
Core: 신경망 기초 및 역전파 (Neural Foundations)
- Why to Learn: 복잡한 비선형 함수를 근사하여 기계가 학습하게 하는 가장 기본적인 동력을 이해하기 위함입니다.
- What to Learn:
- 활성화 함수(Activation Functions): Sigmoid, Tanh, ReLU의 수리적 특성 및 도함수 물리
- 오차 역전파(Backpropagation): 연쇄 법칙(Chain Rule)을 이용한 가중치 업데이트 시퀀스
- 손실 함수의 지형: 왜 신경망 학습이 확률적 접근이 필요한지에 대한 물리적 통찰
- How to Learn:
- 엑셀이나 넘파이(NumPy)만을 이용해 수동으로 역전파 과정을 계산해보는 'Hand-calculating' 실습
- 학습 횟수(Epoch)에 따른 손실 함수의 하강 곡선 시각화 분석
- Implement: 라이브러리 없이 순수 파이썬 코드로 구현된 2층 퍼셉트론 XOR 해결기
Recommended
Core: 컴퓨터 비전과 합성곱 (CNN Mechanics)
- Why to Learn: 공간 데이터(이미지)에서 사람이 찾지 못하는 물리적 특징을 고속으로 추출하기 위해서입니다.
- What to Learn:
- 합성곱(Convolution) 필터의 가중치 공유 및 국소 수용장(Receptive Field) 물리
- 스트라이드(Stride)와 풀링(Pooling)을 통한 데이터 요약 및 이동 불변성(Invariance)
- 전이 학습(Transfer Learning): 미리 학습된 물리 특징 필터의 재사용 기술
- How to Learn:
- 특정 필터(Edge detector 등)를 이미지에 적용했을 때 픽셀 수치가 어떻게 변하는지 직관적으로 관측
- 레이어 깊이에 따라 추출되는 특징의 추상화 수준 변화 연구
- Implement: 필터 크기를 조정하며 이미지의 외곽선을 따내는 단순 CNN 모듈
Practical
Core: 순차 데이터와 어텐션 (Sequential & Attention)
- Why to Learn: 시간의 흐름이나 문장의 문맥 등 순서가 중요한 데이터를 물리적으로 처리하기 위함입니다.
- What to Learn:
- RNN/LSTM의 은닉 상태(Hidden State)를 통한 정보 보존 물리
- 어텐션(Attention) 메커니즘: 정보의 중요도에 따른 수치적 가중치 할당 역학
- 셀프 어텐션(Self-Attention): 트랜스포머의 병렬 처리가 가능해진 수리적 이유
- How to Learn:
- 문장 내 단어 간의 연관 관계 점수가 매겨지는 어텐션 맵(Heatmap) 시각화 분석
- 장기 의존성(Long-term dependency) 문제가 물리적으로 해결되는 과정 추적
- Implement: 단어 시퀀스를 입력받아 다음에 올 값을 예측하는 기초 순환 모델
Advanced
Core: 딥러닝 최적화 및 안정화 (Optimization & Regularization)
- Why to Learn: 수억 개의 파라미터가 발산하지 않고 물리적으로 안정된 상태로 수렴하게 하기 위해서입니다.
- What to Learn:
- 배치 정규화(Batch Normalization): 레이어 간 데이터 분포를 물리적으로 조정하는 기술
- 최적화 알고리즘: Momentum, RMSProp, Adam의 물리적 관성 및 적응적 학습률
- 과적합 방지: Dropout, Early Stopping이 모델의 복잡도를 물리적으로 억제하는 원리
- How to Learn:
- 정규화 적용 전후의 가중치 분포(Histogram) 변화를 실시간으로 모니터링
- 학습률 스케줄링(Scheduler)이 최적해에 도달하는 정밀도 분석
- Implement: 학습 도중 오버피팅을 감지하고 자동으로 멈추는 Early Stopper 유틸리티
7. Terminology
8. References
Primary References
- [P1] CS2023 - AI/Machine Learning — Deep learning and NN sections.
- [P4] DS-BoK - Unstructured Data — Neural networks for vision/text.
Secondary References
- [Deep Learning] Ian Goodfellow et al. — The definitive academic textbook.
- [Dive into Deep Learning (D2L.ai)] — Best interactive code-based learning resource.
Industry References
- [PyTorch/TensorFlow Documentation - Core Concepts] — Implementation standards.
- [NVIDIA Deep Learning Institute] — GPU-accelerated computing physics.
9. Final Checklist
Primary Checklist
- 심층 신경망이 '특징 공학' 없이도 어떻게 물리적 데이터를 수리적으로 계층화하는지 설명 가능한가? (P1)
- 셀프 어텐션의 수리적 연산량이 입력 토큰 수치 변화에 따라 물리적으로 어떻게 급증하는지 논증할 수 있는가? (P1)
Secondary Checklist
- 활성화 함수 ReLU가 Sigmoid 대비 기울기 소실 문제를 물리적으로 어떻게 완화하는지 수식적으로 논할 수 있는가?
- CNN에서 풀링 레이어가 데이터의 미세한 위치 변화에 강인한(Robust) 지능을 만드는 물리적 이유를 아는가?
Industry Checklist
- 특정 모델 아키텍처의 파라미터 개수를 기반으로 필요한 하드웨어 메모리 점유량을 물리적으로 계산 가능한가? (SFIA)
- 분산 학습 환경에서 데이터 병렬(Data Parallel) 처리 시 각 노드 간 가중치 동기화의 물리적 지연을 최소화할 수 있는가?