합성곱 신경망을 통한 시각 인식의 구조적 변천과 기술적 분석
컴퓨터 비전 분야는 지난 10년 동안 수동으로 설계된 특징 추출 방식에서 데이터 기반의 엔드투엔드(End-to-End) 학습 시스템으로의 근본적인 패러다임 전환을 경험했다. 이러한 변화의 중심에는 스탠퍼드 대학교의 CS231n 강의가 있으며, 2025년으로 10주년을 맞이한 이 교육 과정은 딥러닝의 기초부터 시각적 세계의 심층적인 이해에 이르기까지 광범위한 지식을 다룬다. 특히 저스틴 존슨(Justin Johnson) 교수가 주도하는 제5강 ‘합성곱 신경망을 이용한 이미지 분류’는 선형 분류기와 완전 연결 신경망(Fully Connected Networks)의 한계를 극복하고, 이미지의 공간적 구조를 보존하는 합성곱 연산의 도입을 통해 현대 시각 지능의 기틀을 마련한 과정을 상세히 분석한다. 본 보고서는 강의 스크립트와 관련 연구 자료를 바탕으로 합성곱 신경망(CNN)의 기술적 메커니즘, 역사적 진화, 그리고 최신 아키텍처로의 전환에 대해 심층적으로 고찰한다.
딥러닝 기반 이미지 분류의 기초와 전이점
딥러닝 시스템을 구축하는 첫 번째 단계는 문제를 텐서(Tensor)의 입출력 형식으로 공식화하는 것이다. 이미지 분류 설정에서 입력은 픽셀 값의 그리드로 구성된 3차원 텐서이며, 출력은 미리 정의된 각 카테고리에 대한 유사도 또는 점수를 나타내는 텐서다. 초기 학습 과정은 선형 분류기를 통해 가중치 행렬 W와 이미지 픽셀 간의 곱연산으로 점수를 예측하는 간단한 구조에서 시작되었다. 그러나 선형 분류기는 두 가지 결정적인 결함을 가지고 있다. 첫째, 시각적 관점에서 선형 분류기는 각 카테고리에 대해 단 하나의 이미지 템플릿만을 학습할 수 있다. 예를 들어, ‘자동차’ 카테고리의 템플릿이 붉은색 덩어리 형태로 학습되었다면, 파란색이나 녹색 자동차를 인식하는 데 한계가 발생한다. 둘째, 기하학적 관점에서 선형 분류기는 고차원 공간에서 하이퍼플레인(Hyperplane)으로 공간을 분할하는데, 데이터가 선형적으로 분리 가능하지 않은 경우에는 제대로 작동하지 않는다.
이러한 한계를 극복하기 위해 두 개의 가중치 행렬 사이에 비선형성(Non-linearity)을 추가한 신경망 구조가 정의되었다. 신경망은 $f = W_2 \max(0, W_1 x)$와 같은 기능적 형태를 취하며, 여기서 ReLU(Rectified Linear Unit)와 같은 활성화 함수가 도입되어 모델의 표현력을 비약적으로 향상시킨다. 이러한 복잡한 모델을 최적화하기 위해 연산 그래프(Computational Graph)라는 데이터 구조가 사용되며, 각 노드는 행렬 곱셈이나 ReLU와 같은 기능적 원시 단위를 담당한다. 데이터는 그래프를 따라 왼쪽에서 오른쪽으로 흐르며 손실 함수(Loss Function)를 계산하고, 이후 역전파(Backpropagation) 알고리즘을 통해 오른쪽에서 왼쪽으로 이동하며 각 매개변수에 대한 그래디언트(Gradient)를 계산한다.
최적화 알고리즘의 진화와 커뮤니티의 인정
가중치 행렬을 갱신하여 손실을 최소화하는 최적화 과정은 딥러닝의 핵심이다. SGD(Stochastic Gradient Descent), Momentum, RMSprop, 그리고 Adam과 같은 알고리즘들이 널리 사용된다. 특히 Adam 최적화 도구는 2015년 ICLR(International Conference on Learning Representations)에서 처음 발표된 이후 10년이 지난 2025년에 ‘Test of Time Award’를 수상하며 그 영향력을 입증했다. 이는 학계가 10년 전의 연구 중 가장 혁신적이고 지속적인 가치를 지닌 기술을 공식적으로 인정한 사례로 볼 수 있다.
| 최적화 알고리즘 | 주요 메커니즘 | 특징 및 영향 |
| SGD | 현재 기울기 방향으로 가중치 업데이트 | 가장 기본적인 최적화 방식 |
| Momentum | 과거 기울기 방향을 유지하여 가속도 부여 | 지역 최솟값(Local Minima) 탈출 용이 |
| Adam | RMSprop과 Momentum의 결합 | ICLR 2025 Test of Time Award 수상, 범용적 성능 |
전통적 특징 표현과 엔드투엔드 학습의 대조
신경망이 시각 인식의 주류가 되기 이전, 이른바 ‘암흑기’에는 인간 설계자가 지능적으로 고안한 특징 추출(Feature Extraction) 방식이 지배적이었다. 이 방식에서는 이미지의 픽셀을 직접 신경망에 넣는 대신, 색상 히스토그램(Color Histogram)이나 HOG(Histogram of Oriented Gradients)와 같은 변환 기능을 통해 의미 있는 표현을 먼저 추출했다.
주요 전통적 특징 추출 기법 분석
색상 히스토그램은 이미지 내의 색상 분포를 포착하는 방식이다. 모든 가능한 색상 공간을 이산적인 버킷으로 나누고, 각 버킷에 해당하는 픽셀의 수를 카운트하여 특징 벡터를 형성한다. 이 방식은 이미지의 공간적 구조를 완전히 파괴하고 색상 분포만을 고려하기 때문에, 물체의 위치 변화에는 강인하지만 형태 정보는 손실된다. 반면, HOG는 색상 정보를 버리고 구조적 정보에 집중한다. 이미지를 작은 픽셀 영역(예: 8×8)으로 나누고, 각 영역 내에서 가장 강한 가장자리(Edge)의 방향을 양자화하여 히스토그램을 작성한다. 이는 개별 픽셀의 세부 사항보다는 지역적인 형태의 특징을 잡아내는 데 유용하며, 특히 인간 탐지(Human Detection) 분야에서 큰 성과를 거두었다.
| 특징 추출 방식 | 핵심 원리 | 데이터 손실/보존 특성 |
| 색상 히스토그램 | 색상 공간의 이산화 및 픽셀 카운팅 | 공간 구조 파괴, 색상 정보 보존 |
| HOG | 지역 가장자리 방향의 양자화 | 색상 정보 파괴, 지역 구조 정보 보존 |
| Bag of Words | 무작위 패치 추출 및 시각적 코드북 구축 | 중간 수준의 패턴 인식, 변형에 강함 |
전통적인 시스템과 신경망 시스템의 가장 큰 차이점은 ‘인간의 설계’ 대 ‘데이터의 학습’ 비율에 있다. 전통적인 패러다임에서는 특징 추출 부분이 고정된 코드(C++이나 Matlab 등)로 작성되며, 분류기 부분만 학습된다. 반면, 신경망 접근 방식은 원시 픽셀부터 최종 분류 점수에 이르기까지 시스템의 모든 부분이 그래디언트 데센트를 통해 데이터로부터 학습된다. 이는 인간의 직관이 가질 수 있는 병목 현상을 제거하고, 대규모 데이터와 컴퓨팅 자원을 통해 최적의 함수를 스스로 찾아내도록 유도한다.
합성곱 신경망(CNN)의 기술적 아키텍처
완전 연결 신경망(FC)의 가장 큰 문제점은 이미지의 2차원 또는 3차원 공간 구조를 무시하고 1차원 벡터로 펼쳐서 처리한다는 점이다. 합성곱 신경망은 이러한 한계를 보완하기 위해 이미지의 공간적 구조를 보존하는 새로운 연산 노드를 도입했다. CNN의 전형적인 구조는 합성곱 층(Convolutional Layer), 활성화 층(Activation Layer), 그리고 풀링 층(Pooling Layer)의 반복적인 조합으로 구성된다.
합성곱 층의 작동 원리
합성곱 층은 입력 이미지 위를 슬라이딩하는 작은 필터(또는 커널)를 사용한다. 예를 들어, 32x32x3 크기의 RGB 이미지 입력에 대해 5x5x3 크기의 필터를 적용할 수 있다. 여기서 필터의 깊이(3)는 항상 입력 채널의 깊이와 일치해야 한다. 필터는 이미지의 각 지역 영역과 내적(Dot Product)을 수행하여 하나의 스칼라 값을 생성하며, 이 과정을 이미지 전체에 대해 반복하여 활성화 맵(Activation Map)을 형성한다.
필터는 일종의 ‘템플릿 매칭’ 기능을 수행한다. 학습된 필터들을 시각화해보면, 첫 번째 층의 필터들은 주로 특정 방향의 가장자리나 특정 색상 대조를 찾는 Gabor 필터와 유사한 형태를 띤다. 층이 깊어질수록 네트워크는 이러한 기초적인 특징들을 조합하여 눈, 바퀴, 텍스트 조각과 같은 더 복잡한 구조를 인식하게 된다.
공간적 차원 결정과 하이퍼파라미터
합성곱 연산 후 출력 텐서의 크기는 입력 크기(W), 필터 크기(K), 스트라이드(S), 그리고 제로 패딩(P)에 의해 결정된다. 출력 크기를 계산하는 공식은 다음과 같다.
여기서 패딩($P$)은 특징 맵이 층을 통과할 때마다 급격히 작아지는 것을 방지하기 위해 이미지 가장자리에 가상의 픽셀(주로 0)을 추가하는 기법이다. 스트라이드($S$)는 필터가 한 번에 이동하는 칸수를 의미하며, 스트라이드가 커질수록 출력 크기는 작아지고 수용장(Receptive Field)은 빠르게 확대된다.
| 하이퍼파라미터 | 역할 | 설정 전략 |
| 필터 크기 ($K$) | 지역 수용장의 크기 결정 | 보통 3×3 또는 5×5 사용 |
| 스트라이드 ($S$) | 출력 공간 해상도 조절 | 다운샘플링을 위해 2 이상 사용 |
| 패딩 ($P$) | 경계 정보 보존 및 크기 유지 | $P = (K-1)/2$로 설정하여 크기 보존 |
| 필터 개수 | 출력 채널의 깊이 결정 | 모델의 용량(Capacity) 조절 |
수용장의 개념은 개별 뉴런이 입력 이미지의 어느 영역에 영향을 받는지를 설명한다. 단일 층의 합성곱은 필터 크기만큼의 좁은 수용장을 가지지만, 층을 쌓아 올릴수록 하위 층의 정보가 집약되어 상위 층 뉴런의 유효 수용장(Effective Receptive Field)은 선형적으로 또는 스트라이드에 의해 기하급수적으로 확장된다. 이는 모델이 전역적인 이미지 맥락을 파악할 수 있게 하는 핵심 메커니즘이다.
풀링 층을 통한 다운샘플링과 효율성
풀링 층은 네트워크 내에서 공간 차원을 줄이기 위한 저비용 연산이다. 합성곱 층도 스트라이드를 통해 차원을 줄일 수 있지만, 풀링은 별도의 학습 매개변수 없이 고정된 함수를 각 채널에 독립적으로 적용함으로써 계산 효율성을 극대화한다.
가장 널리 사용되는 방식은 맥스 풀링(Max Pooling)으로, 지정된 영역(예: 2×2) 내에서 가장 큰 값만을 추출한다. 이는 이미지 내의 특정 특징이 해당 영역 어딘가에 존재한다는 정보만을 남기고 정확한 위치 정보에 대한 의존도를 낮춤으로써, 작은 이동에 대한 불변성(Invariance)을 제공한다. 일반적으로 풀링 층에는 패딩을 사용하지 않으며, 2×2 필터와 스트라이드 2를 사용하여 공간 해상도를 정확히 절반으로 줄이는 설정이 표준적이다.
CNN의 역사적 진화와 현대적 위상
CNN의 개념적 뿌리는 1959년 휴벨(Hubel)과 비젤(Wiesel)의 고양이 시각 피질 연구로 거슬러 올라간다. 그들은 시각 피질의 뉴런들이 특정 방향의 선에 반응하고, 계층적인 구조를 통해 복잡한 시각 정보를 처리한다는 것을 발견했다. 이를 공학적으로 구현한 것이 1980년대의 네오코그니트론(Neocognitron)이며, 현대적인 형태의 CNN은 1998년 얀 르쿤(Yann LeCun)의 LeNet-5에서 완성되었다.
LeNet-5는 필기체 숫자 인식에서 탁월한 성능을 보였으나, 당시의 컴퓨팅 자원 한계로 인해 대규모 이미지 처리에는 어려움이 있었다. 이후 2012년 알렉스 넷(AlexNet)의 등장은 딥러닝의 폭발적인 성장을 이끌었다. 알렉스 넷은 기본적으로 LeNet과 유사한 구조를 가졌으나, 더 깊은 층, GPU 활용, 그리고 ImageNet이라는 대규모 데이터셋을 통해 성능을 극대화했다. 2012년부터 2020년까지 CNN은 객체 탐지(Detection), 세그멘테이션(Segmentation), 이미지 캡셔닝(Image Captioning) 등 컴퓨터 비전의 거의 모든 과제를 지배했다.
트랜스포머의 등장과 새로운 국면
2020년경부터 비전 트랜스포머(ViT)가 등장하며 CNN의 독점적 위치에 변화가 생겼다. 원래 자연어 처리(NLP)를 위해 개발된 트랜스포머 아키텍처는 이미지를 패치 단위로 나누어 처리하며, 자기 주의(Self-Attention) 메커니즘을 통해 이미지 내 모든 영역 간의 관계를 직접 모델링한다. 데이터와 컴퓨팅 자원이 방대할 경우 트랜스포머는 CNN보다 더 높은 성능을 보이기도 한다. 그러나 CNN은 여전히 효율성, 국소적 특징 추출 능력, 그리고 중소규모 데이터셋에서의 강력한 성능 덕분에 널리 사용되며, 최근에는 CNN과 트랜스포머의 장점을 결합한 하이브리드 시스템도 활발히 연구되고 있다.
이동 등변성(Translation Equivariance)의 수학적 의미
CNN이 이미지 처리에 적합한 이유 중 하나는 이동 등변성이라는 특성 때문이다. 이는 입력 이미지가 이동하면 출력 특징 맵도 동일하게 이동한다는 성질을 의미한다. 수학적으로 이는 합성곱 연산과 이동(Translation) 연산의 순서를 바꾸어도 결과가 동일함을 시사하는 ‘교환 법칙’과 유사한 개념이다. 이 구조적 특성은 물체가 이미지의 어디에 위치하든 동일한 필터가 적용되도록 보장함으로써, 모델이 위치 정보에 구애받지 않고 특징을 학습할 수 있게 한다. 이는 인간의 시각적 직관을 연산자 설계 단계에서 반영한 대표적인 사례다.
결론 및 향후 전망
합성곱 신경망은 이미지의 공간적 구조를 존중하고, 공유 가중치를 통해 매개변수 효율성을 확보하며, 계층적 학습을 통해 복잡한 시각 패턴을 정복했다. 2025년 현재, 비록 트랜스포머와 같은 새로운 아키텍처가 도전장을 내밀고 있으나, CNN이 정립한 공간적 국소성(Locality)과 계층적 특징 구성의 원리는 여전히 유효하다. 딥러닝의 기초 위에서 구축된 이러한 구조적 혁신은 향후 자율 주행, 의료 영상 분석, 생성형 AI 등 시각 지능이 필요한 모든 분야에서 핵심적인 역할을 지속할 것으로 전망된다. 데이터와 연산 능력이 향상됨에 따라 모델은 더욱 깊고 복잡해지겠지만, 그 근간을 이루는 역전파와 합성곱의 원리는 앞으로도 시각적 세계를 이해하는 가장 강력한 도구로 남을 것이다.
보고서 요약 데이터 테이블
| 분석 차원 | 주요 내용 | 관련 근거 |
| 모델 구조 | 합성곱(CONV) -> 활성화(RELU) -> 풀링(POOL)의 반복 및 말단 FC 층 | |
| 학습 메커니즘 | 연산 그래프 기반의 순전파 및 역전파(Backpropagation) | |
| 역사적 이정표 | LeNet-5 (1998) -> AlexNet (2012) -> ViT (2021) | |
| 수학적 특성 | 이동 등변성(Translation Equivariance), 수용장 확장 | |
| 최적화 도구 | Adam (ICLR 2025 Test of Time Award 수상) |
본 보고서는 CS231n 강의의 핵심 내용을 체계적으로 분석하여 합성곱 신경망의 기술적 가치와 역사적 맥락을 재조명했다. 시각 지능의 진화는 단순히 연산의 복잡도를 높이는 과정이 아니라, 데이터의 본질적인 구조를 가장 잘 반영할 수 있는 수학적 도구를 찾아가는 과정임을 확인할 수 있다.
이미지 분류에 사용되는 기술
- Support Vector Machine (SVM)
- K-nearest Neighbors Algorithm (KNN)
- Decision Tree
- Artificial Neural Network (ANN)
- Convolutional Neural Network (CNN)
참고 영상
https://www.youtube.com/watch?v=f3g1zGdxptI