콘텐츠로 바로가기

Neural Network Foundations

생물학적 뇌의 뉴런 동작 방식을 수리적으로 모방하여, 다층 구조의 레이어를 통해 복잡한 비선형 패턴을 학습하는 딥러닝의 물리적 근간과 퍼셉트론 원리를 다룹니다.

sys.entry
M

Me

hyunyoun's Blog

posts6 min read

1. Overview

신경망 기초(Neural Network Foundations, NNF)는 단순한 선형 모델의 한계를 수리적으로 돌파하기 위해, '인공 뉴런'이라는 물리적 연산 단위를 첩첩이 쌓아 올려 우주의 데이터 분포를 근사(Function Approximation)하는 '비선형 지능 물리학'입니다.

학습자는 단일 뉴런인 **퍼셉트론(Perceptron)**의 수리적 결합부터, 오차가 하드웨어 레이어를 거슬러 올라가며 가중치를 수정하는 **역전파(Backpropagation)**의 물리적 수순을 배웁니다. 특히, 신경망에 '생명력'을 불어넣어 선형성을 깨뜨리는 **활성화 함수(Activation Function)**의 수치적 역할을 익힙니다. 이를 통해 현대 AI 혁명의 출발점인 딥러닝의 내부 메커니즘을 수리적으로 지배하는 하이엔드 아키텍처 거버넌스 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

  • Artificial Neurons: 가중 합산(wx+b\sum wx+b)과 활성화를 거치는 수리적 뉴런 모델링
  • Multi-Layer Perceptron (MLP): 고차원 특징 추출을 위한 은닉층(Hidden Layer)의 물리적 배치
  • Backward Pass Mechanics: 편미분을 통한 오차의 물리적 전파 및 가중치 업데이트 수순
  • Activation Dynamics: Sigmoid, ReLU, Tanh 등 비선형 수치를 생성하는 물리적 필터링
  • Weights & Biases: 신경망의 기억력을 담당하는 수리적 파라미터의 물리적 해석

Out-of-Scope

  • 합성곱(CNN)이나 순환(RNN) 등의 특수 목적 레이어 (11-02-02/03 영역에서 분담)
  • GPU 하드웨어 가속을 위한 하위 레벨 CUDA 프로그래밍 (03-XX-XX 영역에서 분담)

Boundaries

  • NNF vs. Traditional ML: 기존 ML이 수동으로 피처를 엔지니어링하는 물리적 한계를 가졌다면, NNF는 레이어를 통해 '스스로 피처를 학습(Representation Learning)'하는 수리적 전환점에 집중하여 구분합니다.

3. Counterexample

  • 단순히 "레이어를 많이 쌓으면 좋다"라 설명하는 것은 NNF 학습이 아닙니다. 왜 레이어가 수치적으로 깊어질수록 기울기가 사라지는 기울기 소실(Vanishing Gradient) 현상이 물리적으로 발생하는지 증명할 수 있어야 하며, 역전파가 단순히 수식을 푸는 것이 아니라 '오차에 대한 각 파라미터의 물리적 기여도'를 수리적으로 소급 적용하는 과정임을 논증하지 못한다면 신경망의 본질을 이해하지 못한 것입니다.

4. Prerequisites

  • Optimization Logic & Gradient Descent (Basic): 11-01-04의 경사 하강법 및 학습률 개념 이해가 필수입니다.
  • Linear Algebra (Basic): 02-06-XX의 행렬 곱셈(DotDot productproduct) 이해가 필수입니다.

5. Learning Map

  1. The Artificial Neuron: 신호의 세기를 수리적 가중치로 조절하는 단일 물리 세포를 이해합니다.
  2. Layering Intelligence: 뉴런들을 물리적으로 병렬/직렬 연결하여 복잡한 함수를 근사합니다.
  3. The Feedback Flow: 출력의 실수를 입력단 가중치 수치로 환원하는 수리적 역전파를 익힙니다.
  4. Deep Representation: 얕은 지능을 깊은 통찰로 전환하는 하이엔드 딥러닝 아키텍처를 완성합니다.

6. Learning Topics

Basic

Core: 퍼셉트론과 논리 게이트 (Perceptron Physics)

  • Why to Learn: 디지털 논리를 하드웨어가 스스로 학습하는 최초의 수리적 단위를 이해하기 위해서입니다.
  • What to Learn:
    • McCulloch-Pitts Model: 신경망의 시초가 된 수리적 뉴런 정의
    • Linear Separability: 퍼셉트론이 나눌 수 있는 물리적 경계의 한계
    • XOR Problem: 단층 퍼셉트론의 수리적 붕괴와 다층(Multi-layer)의 물리적 필요성
  • How to Learn:
    • AND, OR 게이트의 가중치를 사람이 수동으로 정해보고, 하드웨어가 이를 스스로 찾는(Learning) 과정 확인 실습
    • XORXOR 입력을 넣었을 때 하위 레이어에서 공간이 물리적으로 어떻게 뒤틀리는지 수리적으로 분석
  • Implement: 입력 벡터를 가중 합산하여 계단 함수(Step Function)로 출력하는 기초 SimplePerceptron

Core: 활성화 함수와 비선형성 (Activation Dynamics)

  • Why to Learn: 신경망이 단순한 행렬 곱셈을 넘어 복잡한 물리 세계의 곡선을 수치적으로 모사하게 만들기 위함입니다.
  • What to Learn:
    • Sigmoid & Tanh: 초기 신경망의 수리적 활성화 모델과 물리적 포화(Saturation) 현상
    • ReLU (Rectified Linear Unit): 현대 딥러닝을 가능하게 한 수리적 효율성과 물리적 직관
    • Softmax: 여러 후보군 중 하나를 선택하는 물리적 확률 수치로의 변환
  • How to Learn:
    • ReLU를 썼을 때와 Sigmoid를 썼을 때, 레이어가 깊어짐에 따라 하드웨어 연산 속도와 수렴 수치가 어떻게 다른지 대조 실습
    • 활성화 함수의 미분값(GradientGradient)이 하드웨어상에서 수리적으로 왜 0으로 수렴하면 안 되는지 연구
  • Implement: ReLU와 Sigmoid 함수의 출력 및 미분값을 계산하여 반환하는 ActivationEngine

Practical

Core: 역전파 알고리즘과 수치 미분 (Backprop Mechanics)

  • Why to Learn: 수백만 개의 파라미터를 물리적으로 일일이 수정하는 대신, 수학적 필연성으로 동시에 업데이트하기 위해서입니다.
  • What to Learn:
    • Computational Graph: 연산을 물리적 노드와 엣지로 구성하여 수리적 흐름을 시각화
    • Local Gradient: 각 연산 유닛이 갖는 수리적 미분값의 물리적 보관
    • Chain Rule Stacking: 하향식으로 전달되는 오차 수치를 각 파라미터로 물리 분배하는 공정
  • How to Learn:
    • 아주 간단한 2층 신경망의 수리적 수식을 손으로 풀고, PyTorchautograd 수치 결과와 물리적 일치 여부 확인 실습
    • 학습 과정에서 특정 레이어의 가중치가 왜 수리적으로 변하지 않는지(DeadDead ReLUReLU 등) 물리 원인 분석 훈련
  • Implement: 계산 그래프의 순전파(Forward)와 역전파(Backprop)를 수행하는 GradNode 시스템

Advanced

Core: 초기화와 가중치 물리 (Weight Initialization)

  • Why to Learn: 학습이 시작되기도 전에 수리적 폭발이나 소멸이 일어나 하드웨어 자원을 낭비하는 일을 막기 위함입니다.
  • What to Learn:
    • Xavier/Glorot Initialization: 분산을 수리적으로 보존하여 활성화 수치가 균등하게 퍼지게 하는 물리 전략
    • He Initialization: ReLU 계열 활성화에 최적화된 수리적 초기화 수치 도출
    • Weight Decay Physics: L2 규제가 물리적으로 가중치를 원점으로 어떻게 끌어당겨 일반화를 돕는지 연구
  • How to Learn:
    • 가중치를 모두 0으로 수치화했을 때, 모든 뉴런이 물리적으로 동일하게 동작하는 '대칭성(Symmetry)' 문제 분석 실습
    • **배치 정규화(Batch Normalization)**를 적용하여 레이어 간의 수리적 수치 분포를 강제로 물리 제어하는 훈련
  • Implement: 다양한 초기화 전략에 따라 행렬 수치를 채우는 Smart_Initializer

7. Terminology

Term (EN / ko, abbr) 1문장 정의 단계(기본/권장/실무/심화) 역할/맥락 관련 개념 유사/대비/함께 사용 오해 포인트 Evidence(Primary/Secondary/Industry) Flags(core)
Hidden Layer 입력과 출력 사이에 물리적으로 위치하여 데이터의 수리적 추상화를 담당하는 신경망 계층입니다. 기본 아키텍처 성분 Neuron / Feature Input Layer 사용자가 직접 제어 못 함 P1:CS2023 core
Backpropagation 출력층의 수리적 오차를 입력층 방향으로 물리 환원하여 각 뉴런의 기여도를 계산하는 알고리즘입니다. 추천 가중치 학습 Gradient / Chain Rule Forward 단순 역행 연산 이상임 P1:CS2023 core
ReLU 음수 입력은 수치적으로 0으로, 양수 입력은 물리적으로 그대로 통과시키는 핵심 비선형 활성화 함수입니다. 추천 활성화 필터 Sigmoid / Linear Tanh 연산은 선형적이나 결과는 비선형 P1:CS2023 core
Vanishing Gradient 레이어가 수치적으로 깊어질수록 역전파되는 기울기가 물리적으로 소멸하여 학습이 멈추는 현상입니다. 실무 고질적 문제 ResNet / Sigmoid Exploding Grad 초기 신경망의 최대 장애물 P1:CS2023 core

8. References

Primary

Secondary

  • [Deep Learning] Ian Goodfellow, Yoshua Bengio, Aaron Courville — The fundamental textbook.
  • [Dive into Deep Learning] Aston Zhang — Code-centric interactive reference.

Industry

  • [PyTorch Tutorial: Deep Learning with PyTorch - A 60 Minute Blitz] — Practical industrial entry.
  • [TensorFlow Documentation: Neural Network Basics] — Framework implementation context.

9. Final Checklist

Primary

  • '단층 퍼셉트론'이 수리적으로 해결할 수 없는 물리적 영역(XOR 등)과 그 이유를 설명 가능한가? (P1)
  • '역전파' 과정에서 '연쇄 법칙(Chain Rule)'이 수조 개의 연산을 어떻게 수리적으로 통합하는지 기술할 수 있는 가? (P1)

Secondary

  • '시그모이드' 활성화 함수가 딥러닝의 물리적 깊이를 확보하는 데 있어 갖는 수리적 한계(Saturation)를 소통 가능한가?
  • 가중치 초기화(Initialization) 수치가 학습의 '수렴 물리'에 미치는 결정적 영향을 논증할 수 있는 가?

Industry

  • 실제 하드웨어 학습 환경에서 '기울기 소실' 징후를 손실 함수 수치 변화를 통해 물리적으로 감지할 수 있는 가? (SFIA)
  • Softmax 출력 수치를 '엔트로피'와 결합하여 모델의 물리적 확신도를 정량적으로 제안할 수 있는 가?