CNN & Computer Vision Mechanics
시각적 데이터의 공간적 구조를 보존하며 계층적으로 특징을 추출하는 합성곱 신경망의 물리적 필터링과, 기계가 세상을 '보는' 수리적 메커니즘을 다룹니다.
sys.entry
M
Me
hyunyoun's Blog
posts6 min read
1. Overview
CNN 및 컴퓨터 비전 역학(CNN & Computer Vision Mechanics, CVM)은 픽셀의 무작위한 나열을 수리적으로 해석하여, 선, 면, 그리고 물체라는 물리적 실체로 인식해 내려는 '공간적 특징 인식 물리학'입니다.
학습자는 작은 수치 필터를 이미지 위로 굴리며 특징을 뽑아내는 **합성곱(Convolution)**의 물리적 수순과, 데이터의 사소한 위치 변화를 무시하고 핵심만 남기는 **풀링(Pooling)**의 수리적 압축을 배웁니다. 특히, 초기 레이어는 단순한 선을, 깊은 레이어는 복잡한 사물을 인식하게 되는 **계층적 특징 학습(Hierarchical Feature Learning)**의 물리적 원리를 익힙니다. 이를 통해 자율주행부터 의료 영상 분석까지 시각 지능을 하드웨어적으로 구현하는 하이엔드 비전 거버넌스 역량을 확보합니다.
2. Scope & Boundaries
In-Scope
- Convolutional Ops: 커널(Kernel)과 스트라이드(Stride)를 통한 수리적 특징 맵(Feature Map) 생성
- Spatial Hierarchies: 국소적 시야(Receptive Field)를 넓혀가며 물리적 맥락을 파악하는 수순
- Pooling Strategies: Max-pooling 등을 통한 데이터의 물리적 불변성(Invariance) 확보
- Modern Architectures: ResNet, MobileNet 등 하드웨어 효율과 수리 성능을 최적화한 구조
- Vision Tasks: 분류(Classification), 검출(Detection), 세분화(Segmentation)의 수리적 정의
Out-of-Scope
- 고전적 필터를 이용한 단순 디지털 영상 처리 (02-08-XX 영역에서 분담)
- 텍스트나 음성 위주의 순차적 데이터 처리 (11-02-03 영역에서 분담)
Boundaries
- CVM vs. Fully Connected: 일반 신경망이 이미지의 공간 구조를 파괴하여 1열로 늘어놓는다면, CVM은 픽셀 간의 '물리적 인접성'을 유지하며 수리 연산을 수행한다는 점에 집중하여 구분합니다.
3. Counterexample
- 단순히 "이미지를 넣으면 사물을 맞힌다"라 설명하는 것은 CVM 학습이 아닙니다. 왜 스트라이드(Stride) 수치가 1에서 2로 물리적으로 커질 때 출력 수치 성능이 왜 비약적으로 효율화되는지 증명할 수 있어야 하며, 풀링 레이어가 단순히 정보를 버리는 것이 아니라 하드웨어가 물체의 '수리적 위치 이동'에 강인해지도록 만드는 물리적 방어 기제임을 논증하지 못한다면 비전 역학의 본질을 이해하지 못한 것입니다.
4. Prerequisites
- Neural Network Foundations (Basic): 11-02-01의 다층 레이어 및 활성화 함수 개념 이해가 필수입니다.
- Image Processing Basics (Recommended): 02-08-XX의 픽셀, 채널(RGB), 커널 연산 기초 이해가 권장됩니다.
5. Learning Map
- The Sliding Window: 작고 수리적인 '눈(Filter)'을 이미지 전체에 물리적으로 투사하여 특징을 읽습니다.
- Abstracting Space: 복잡한 픽셀 정보를 물리적 '개념(Feature)'으로 수치 압축합니다.
- Deep Vision Towers: 수십 층의 레이어를 쌓아, 기계가 사물의 '의미'를 물리적으로 이해하게 합니다.
- Visual Governance: 하드웨어가 시각 정보를 통해 실시간 결정을 내리는 하이엔드 비전 시스템을 완성합니다.
6. Learning Topics
Basic
Core: 합성곱 연산과 필터 (Convolution Physics)
- Why to Learn: 이미지의 거대한 수치를 하드웨어가 감당 가능한 핵심 정보로 물리 변환하기 위해서입니다.
- What to Learn:
- Filter/Kernel: 이미지의 특정 물리 패턴(엣지 등)을 수리적으로 추출하는 가중치 뭉치
- Feature Map: 합성곱 결과로 생성된, 데이터의 물리적 특징이 강조된 수치 지도
- Zero Padding: 외곽 정보의 소실을 수리적으로 방지하고 물리 외형을 유지하는 법
- How to Learn:
- 소벨(Sobel) 필터를 수치적으로 이미지에 적용하여, 하드웨어가 사물의 경계선을 물리적으로 찾아내는 과정 확인 실습
- 채널() 수치가 1(흑백)에서 3(RGB)으로 늘어날 때, 연산량이 수리적으로 어떻게 배가되는지 분석
- Implement: 커널을 이미지 행렬 위에서 이동시키며 합성곱 값을 계산하는 기초
FeatureExtractor
Recommended
Core: 풀링과 공간적 불변성 (Pooling Dynamics)
- Why to Learn: 물체가 정중앙에 있든 구석에 있든 하드웨어가 "같은 사물"로 수리 인식하게 만들기 위함입니다.
- What to Learn:
- Max Pooling: 국소 영역에서 가장 강한 물리적 신호(최댓값)만 수리 선발함
- Average Pooling: 평균 수치로 공간 정보를 부드럽게 물리 완화함
- Flattening: 추출된 공간 특징들을 마지막에 수리적으로 1차원 배열로 펼치는 공정
- How to Learn:
- 이미지를 축으로 10픽셀 이동시켰을 때, 풀링 레이어의 출력 수치가 물리적으로 얼마나 안정적인지 대조 실습
- 수용장(Receptive Field) 수치가 레이어가 깊어짐에 따라 기하급수적으로 물리 확장되는 원리 연구
- Implement: 특정 내에서 최댓값을 추출하여 해상도를 물리적으로 줄이는
SpatialReducer
Practical
Core: 현대적 아키텍처와 잔차 학습 (Modern CNN Ops)
- Why to Learn: 수백 층의 레이어를 하드웨어가 효율적으로 학습하여 하이엔드 성능을 낼 수 있게 하기 위해서입니다.
- What to Learn:
- ResNet (Skip Connection): 입력을 수리적으로 우회시켜 깊은 뇌에서도 정보 손실을 물리 차단함
- Batch Normalization: 학습 중 데이터의 수치적 요동을 물리적으로 제어하여 가중치 폭발 방어
- Transfer Learning: 이미 검증된 하이엔드 '비전 뇌'의 수치 지식을 새로운 물리 문제에 재활용함
- How to Learn:
ImageNet으로 사전 학습된 모델을 가져와, 10장의 사진만으로 새로운 물체를 수리 분류해 내는 물리 전이 실습- Fine-tuning 시 하위 레이어의 수치를 고정()할 때의 하드웨어 물리 연산 이득 분석
- Implement: 사후 학습된 가중치를 로드하여 새로운 클래스를 예측하는
Vision_Dispatcher
Advanced
Core: 물체 검출과 세분화 역학 (Advanced Vision Mechanics)
- Why to Learn: 단순 분류를 넘어, 사물의 물리적 위치()와 정교한 외곽()까지 수리 식별하기 위함입니다.
- What to Learn:
- Object Detection (YOLO/Faster R-CNN): 사물의 위치 좌표를 수리적으로 회귀하고 물리 분류함
- Semantic Segmentation (U-Net): 픽셀 하나하나의 수치 소속을 밝혀 물리적 경계를 획정함
- Grad-CAM: AI가 이미지의 어느 구석을 보고 판단했는지 수리적 기여도를 물리 시각화함
- How to Learn:
- 실시간 CCTV 영상에서 사물의 BBox(Bounding Box) 수치가 물리적 흔들림에 얼마나 강인한지 분석 실습
- 자율주행 데이터셋을 사용하여 도도로와 보도를 픽셀 수치 단위로 물리 분리해 내는 공정 연구
- Implement: 이미지 내 사물의 좌표 수치를 히트맵으로 생성하는
Location_Ametist
7. Terminology
8. References
Primary
- [P1] CS2023 - Artificial Intelligence (AI) - Machine Perception & Vision — Academic curricula.
- [P4] DS-BoK (EDSF) - Data Analytics / Visual Pattern Recognition — Definition of visual modeling.
Secondary
- [Deep Learning for Vision Systems] Mohamed Elgendy — Practical architectural patterns.
- [Learning OpenCV 5] Adrian Kaehler — Foundations of computer vision.
Industry
- [PyTorch Docs: torch.nn.Conv2d] — Practical 2D convolution API.
- [NVIDIA Developer Blog: Understanding CNNs] — Hardware-optimized guidance.
9. Final Checklist
Primary
- '합성곱' 연산이 픽셀의 '공간적 상관관계'를 수리적으로 어떻게 보전하는지 물리적 관점에서 설명 가능한가? (P1)
- '필터'의 수치 변화가 이미지 상의 '수직선'이나 '수평선'을 물리적으로 어떻게 부각시키는지 기술할 수 있는 가? (P1)
Secondary
- '맥스 풀링( )' 수치 처리가 하드웨어의 '변동성 대응력'을 어떻게 물리적으로 높이는지 소통 가능한가?
- ResNet의 '지름길()' 구조가 수리적 기울기를 심해(Deep layer)까지 물리 전달하는 기제를 논증할 수 있는 가?
Industry
- 실무 서비스에서 '에지 컴퓨팅' 하드웨어에 CNN을 올리기 위해 채널 수치를 어떻게 물리 최적화할지 제안할 수 있는 가? (SFIA)
- YOLO의 'Confidence Score' 수치를 통해 사물 검출의 물리적 신뢰도를 현장에서 어떻게 판별할지 분석할 수 있는 가?