CNN & Computer Vision Mechanics

1. Overview

CNN 및 컴퓨터 비전 역학(CNN & Computer Vision Mechanics, CVM)은 픽셀의 무작위한 나열을 수리적으로 해석하여, 선, 면, 그리고 물체라는 물리적 실체로 인식해 내려는 '공간적 특징 인식 물리학'입니다.

학습자는 작은 수치 필터를 이미지 위로 굴리며 특징을 뽑아내는 **합성곱(Convolution)**의 물리적 수순과, 데이터의 사소한 위치 변화를 무시하고 핵심만 남기는 **풀링(Pooling)**의 수리적 압축을 배웁니다. 특히, 초기 레이어는 단순한 선을, 깊은 레이어는 복잡한 사물을 인식하게 되는 **계층적 특징 학습(Hierarchical Feature Learning)**의 물리적 원리를 익힙니다. 이를 통해 자율주행부터 의료 영상 분석까지 시각 지능을 하드웨어적으로 구현하는 하이엔드 비전 거버넌스 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

Convolutional Ops: 커널(Kernel)과 스트라이드(Stride)를 통한 수리적 특징 맵(Feature Map) 생성
Spatial Hierarchies: 국소적 시야(Receptive Field)를 넓혀가며 물리적 맥락을 파악하는 수순
Pooling Strategies: Max-pooling 등을 통한 데이터의 물리적 불변성(Invariance) 확보
Modern Architectures: ResNet, MobileNet 등 하드웨어 효율과 수리 성능을 최적화한 구조
Vision Tasks: 분류(Classification), 검출(Detection), 세분화(Segmentation)의 수리적 정의

Out-of-Scope

고전적 필터를 이용한 단순 디지털 영상 처리 (02-08-XX 영역에서 분담)
텍스트나 음성 위주의 순차적 데이터 처리 (11-02-03 영역에서 분담)

Boundaries

CVM vs. Fully Connected: 일반 신경망이 이미지의 공간 구조를 파괴하여 1열로 늘어놓는다면, CVM은 픽셀 간의 '물리적 인접성'을 유지하며 수리 연산을 수행한다는 점에 집중하여 구분합니다.

3. Counterexample

단순히 "이미지를 넣으면 사물을 맞힌다"라 설명하는 것은 CVM 학습이 아닙니다. 왜 스트라이드(Stride) 수치가 1에서 2로 물리적으로 커질 때 출력 수치 성능이 왜 비약적으로 효율화되는지 증명할 수 있어야 하며, 풀링 레이어가 단순히 정보를 버리는 것이 아니라 하드웨어가 물체의 '수리적 위치 이동'에 강인해지도록 만드는 물리적 방어 기제임을 논증하지 못한다면 비전 역학의 본질을 이해하지 못한 것입니다.

4. Prerequisites

Neural Network Foundations (Basic): 11-02-01의 다층 레이어 및 활성화 함수 개념 이해가 필수입니다.
Image Processing Basics (Recommended): 02-08-XX의 픽셀, 채널(RGB), 커널 연산 기초 이해가 권장됩니다.

5. Learning Map

The Sliding Window: 작고 수리적인 '눈(Filter)'을 이미지 전체에 물리적으로 투사하여 특징을 읽습니다.
Abstracting Space: 복잡한 픽셀 정보를 물리적 '개념(Feature)'으로 수치 압축합니다.
Deep Vision Towers: 수십 층의 레이어를 쌓아, 기계가 사물의 '의미'를 물리적으로 이해하게 합니다.
Visual Governance: 하드웨어가 시각 정보를 통해 실시간 결정을 내리는 하이엔드 비전 시스템을 완성합니다.

6. Learning Topics

Basic

Core: 합성곱 연산과 필터 (Convolution Physics)

Why to Learn: 이미지의 거대한 수치를 하드웨어가 감당 가능한 핵심 정보로 물리 변환하기 위해서입니다.
What to Learn:
- Filter/Kernel: 이미지의 특정 물리 패턴(엣지 등)을 수리적으로 추출하는 가중치 뭉치
- Feature Map: 합성곱 결과로 생성된, 데이터의 물리적 특징이 강조된 수치 지도
- Zero Padding: 외곽 정보의 소실을 수리적으로 방지하고 물리 외형을 유지하는 법
How to Learn:
- 소벨(Sobel) 필터를 수치적으로 이미지에 적용하여, 하드웨어가 사물의 경계선을 물리적으로 찾아내는 과정 확인 실습
- 채널( $C$ ) 수치가 1(흑백)에서 3(RGB)으로 늘어날 때, 연산량이 수리적으로 어떻게 배가되는지 분석
Implement: $3 \times 3$ 커널을 이미지 행렬 위에서 이동시키며 합성곱 값을 계산하는 기초 FeatureExtractor

Why to Learn: 물체가 정중앙에 있든 구석에 있든 하드웨어가 "같은 사물"로 수리 인식하게 만들기 위함입니다.
What to Learn:
- Max Pooling: 국소 영역에서 가장 강한 물리적 신호(최댓값)만 수리 선발함
- Average Pooling: 평균 수치로 공간 정보를 부드럽게 물리 완화함
- Flattening: 추출된 공간 특징들을 마지막에 수리적으로 1차원 배열로 펼치는 공정
How to Learn:
- 이미지를 $x$ 축으로 10픽셀 이동시켰을 때, 풀링 레이어의 출력 수치가 물리적으로 얼마나 안정적인지 대조 실습
- 수용장(Receptive Field) 수치가 레이어가 깊어짐에 따라 기하급수적으로 물리 확장되는 원리 연구
Implement: 특정 $window\_size$ 내에서 최댓값을 추출하여 해상도를 물리적으로 줄이는 SpatialReducer

Practical

Core: 현대적 아키텍처와 잔차 학습 (Modern CNN Ops)

Why to Learn: 수백 층의 레이어를 하드웨어가 효율적으로 학습하여 하이엔드 성능을 낼 수 있게 하기 위해서입니다.
What to Learn:
- ResNet (Skip Connection): 입력을 수리적으로 우회시켜 깊은 뇌에서도 정보 손실을 물리 차단함
- Batch Normalization: 학습 중 데이터의 수치적 요동을 물리적으로 제어하여 가중치 폭발 방어
- Transfer Learning: 이미 검증된 하이엔드 '비전 뇌'의 수치 지식을 새로운 물리 문제에 재활용함
How to Learn:
- ImageNet으로 사전 학습된 모델을 가져와, 10장의 사진만으로 새로운 물체를 수리 분류해 내는 물리 전이 실습
- Fine-tuning 시 하위 레이어의 수치를 고정( $Freezing$ )할 때의 하드웨어 물리 연산 이득 분석
Implement: 사후 학습된 가중치를 로드하여 새로운 클래스를 예측하는 Vision_Dispatcher

Advanced

Core: 물체 검출과 세분화 역학 (Advanced Vision Mechanics)

Why to Learn: 단순 분류를 넘어, 사물의 물리적 위치( $Box$ )와 정교한 외곽( $Mask$ )까지 수리 식별하기 위함입니다.
What to Learn:
- Object Detection (YOLO/Faster R-CNN): 사물의 위치 좌표를 수리적으로 회귀하고 물리 분류함
- Semantic Segmentation (U-Net): 픽셀 하나하나의 수치 소속을 밝혀 물리적 경계를 획정함
- Grad-CAM: AI가 이미지의 어느 구석을 보고 판단했는지 수리적 기여도를 물리 시각화함
How to Learn:
- 실시간 CCTV 영상에서 사물의 BBox(Bounding Box) 수치가 물리적 흔들림에 얼마나 강인한지 분석 실습
- 자율주행 데이터셋을 사용하여 도도로와 보도를 픽셀 수치 단위로 물리 분리해 내는 공정 연구
Implement: 이미지 내 사물의 좌표 수치를 히트맵으로 생성하는 Location_Ametist

7. Terminology

Term (EN / ko, abbr)	1문장 정의	단계(기본/권장/실무/심화)	역할/맥락	관련 개념	유사/대비/함께 사용	오해 포인트	Evidence(Primary/Secondary/Industry)	Flags(core)
Convolution	입력 데이터 위로 수리적 필터를 물리적으로 이동시키며 국소적인 특징을 추출하는 가중 연산 공정입니다.	기본	특징 추출	Kernel / Step	Correlation	행렬 곱과는 다른 공간 연산임	P1:CS2023	core
Stride	합성곱 연산 시 필터가 다음 수리 위치로 건너뛰는 물리적인 보폭 수치입니다.	기본	연산 효율	Pooling / Dilation	Padding	클수록 출력 수치가 작아짐	P1:CS2023	core
Receptive Field	특정 뉴런이 물리적으로 반응할 수 있는 입력 이미지의 수리적 영역 크기입니다.	추천	맥락 파악	Layer / Pooling	Resolution	레이어가 깊어질수록 커짐	P1:CS2023	core
Transfer Learning	대규모 데이터로 미리 학습된 모델의 수리적 가중치를 물리적으로 유사한 다른 작업에 적용하는 기법입니다.	실무	실무 효율	Pretrained / Fine-tuning	From Scratch	데이터가 적을 때 필수적임	P1:CS2023	core

8. References

Primary

[P1] CS2023 - Artificial Intelligence (AI) - Machine Perception & Vision — Academic curricula.
[P4] DS-BoK (EDSF) - Data Analytics / Visual Pattern Recognition — Definition of visual modeling.

Secondary

[Deep Learning for Vision Systems] Mohamed Elgendy — Practical architectural patterns.
[Learning OpenCV 5] Adrian Kaehler — Foundations of computer vision.

Industry

[PyTorch Docs: torch.nn.Conv2d] — Practical 2D convolution API.
[NVIDIA Developer Blog: Understanding CNNs] — Hardware-optimized guidance.

9. Final Checklist

Primary

'합성곱' 연산이 픽셀의 '공간적 상관관계'를 수리적으로 어떻게 보전하는지 물리적 관점에서 설명 가능한가? (P1)
'필터'의 수치 변화가 이미지 상의 '수직선'이나 '수평선'을 물리적으로 어떻게 부각시키는지 기술할 수 있는 가? (P1)

Secondary

'맥스 풀링( $Max$ $Pooling$ )' 수치 처리가 하드웨어의 '변동성 대응력'을 어떻게 물리적으로 높이는지 소통 가능한가?
ResNet의 '지름길( $Shortcut$ )' 구조가 수리적 기울기를 심해(Deep layer)까지 물리 전달하는 기제를 논증할 수 있는 가?

Industry

실무 서비스에서 '에지 컴퓨팅' 하드웨어에 CNN을 올리기 위해 채널 수치를 어떻게 물리 최적화할지 제안할 수 있는 가? (SFIA)
YOLO의 'Confidence Score' 수치를 통해 사물 검출의 물리적 신뢰도를 현장에서 어떻게 판별할지 분석할 수 있는 가?

CNN & Computer Vision Mechanics

1. Overview

2. Scope & Boundaries

In-Scope

Out-of-Scope

Boundaries

3. Counterexample

4. Prerequisites

5. Learning Map

6. Learning Topics

Basic

Core: 합성곱 연산과 필터 (Convolution Physics)

Recommended

Core: 풀링과 공간적 불변성 (Pooling Dynamics)

Practical

Core: 현대적 아키텍처와 잔차 학습 (Modern CNN Ops)

Advanced

Core: 물체 검출과 세분화 역학 (Advanced Vision Mechanics)

7. Terminology

8. References

Primary

Secondary

Industry

9. Final Checklist

Primary

Secondary

Industry

Concepts & Tags