Week 9. CNN 기초 — 합성곱 신경망

이미지를 위해 태어난 신경망. 합성곱이라는 단순한 연산이 어떻게 모서리·질감·물체를 차례로 학습하는지 봅니다.

이번 주에 배우는 것

완전연결망의 한계 — 이미지에는 부적합
합성곱 연산
스트라이드와 패딩
풀링 — 다운샘플링
LeNet — 최초의 성공 사례

1. 완전연결망은 왜 이미지에 부적합한가

W7 MLP에서 배운 완전연결망을 이미지에 그대로 쓰면 두 가지 심각한 문제가 생깁니다.

문제 1 — 파라미터 폭발. $28 \times 28$ 픽셀 MNIST 이미지를 1차원으로 펴면 784개 입력이 됩니다. 은닉층에 256개 뉴런만 둬도 첫 층 가중치 수는 $784 \times 256 \approx 200{,}000$개. 이미지가 $224 \times 224$ 컬러라면 입력이 $224 \times 224 \times 3 = 150{,}528$개가 되고, 같은 은닉층 크기로 4천만 개 가중치가 나옵니다. 실용적 이미지 크기에서 완전연결망은 메모리와 계산 비용 모두 감당 불가능합니다.

문제 2 — 구조 정보 상실. 더 심각한 문제는 "이미지를 1차원으로 편다"는 행위 자체입니다. 픽셀 $(5, 5)$와 $(5, 6)$은 이웃이라 의미적으로 연관이 깊지만, 1차원으로 펴면 $(5, 5)$는 인덱스 145이고 $(5, 6)$은 146이 되어 아무 관계 없는 숫자가 됩니다. 게다가 $(5, 5)$와 $(6, 5)$ (바로 아래)는 인덱스 145와 173이 되어 "이웃"이라는 정보가 완전히 사라집니다. 완전연결망은 이 정보를 0부터 재발견해야 하므로 엄청난 데이터와 시간이 낭비됩니다.

또한 "고양이가 이미지 왼쪽에 있을 때"와 "오른쪽에 있을 때"는 픽셀 패턴이 완전히 다르므로, 완전연결망은 이 두 경우를 독립적으로 학습해야 합니다. 사람에게 "왼쪽 고양이"와 "오른쪽 고양이"를 별개의 훈련 데이터로 제공해야 한다는 뜻인데, 말이 안 됩니다.

이 두 문제를 한 번에 해결하는 아이디어 두 가지가 CNN의 핵심입니다:

지역 연결(Local connectivity) — 뉴런이 입력의 모든 픽셀이 아니라 작은 국소 영역만 본다. 시각 피질의 수용장(receptive field) 구조에서 영감.
가중치 공유(Weight sharing) — 같은 필터를 이미지 전체에 적용한다. "왼쪽 고양이"와 "오른쪽 고양이"가 같은 필터 반응을 만들어 평행이동 불변성을 얻음.

두 아이디어를 결합한 연산이 바로 합성곱(convolution)입니다.

2. 합성곱 연산 — 이미지의 언어

수학에서 합성곱은 두 함수의 "밀어 곱하기 적분"이지만, 딥러닝 실무에서는 더 단순하게 "작은 필터를 이미지 위로 미끄러뜨리며 원소별 곱의 합을 구하는 연산"으로 이해하면 됩니다:

$$ S(i,j) = \sum_{m=-k}^{k} \sum_{n=-k}^{k} I(i+m, j+n) \cdot K(m,n) $$

여기서 $I$는 입력 이미지, $K$는 $(2k+1) \times (2k+1)$ 크기의 필터(커널), $S$는 출력(특징 맵, feature map)입니다. 필터의 각 원소는 학습 가능한 가중치. 3×3 필터라면 9개 가중치 + 1개 편향 = 10개 파라미터로 한 특징을 표현합니다.

같은 필터를 모든 위치에 쓰므로 가중치가 공유되고, 그 덕분에 두 가지 좋은 성질이 자동으로 생깁니다:

평행이동 등변성(translation equivariance) — 입력이 10픽셀 오른쪽으로 이동하면 출력도 정확히 10픽셀 오른쪽으로 이동.
파라미터 효율 — 같은 필터가 반복 사용되므로 수백만 개 픽셀 이미지도 수십 개의 가중치로 처리 가능.

2.1 대표 필터의 의미

손으로 설계한 고전적 필터들을 보면 합성곱이 무엇을 할 수 있는지 직관이 잡힙니다.

Sobel X $\begin{bmatrix}-1 & 0 & 1\\ -2 & 0 & 2\\ -1 & 0 & 1\end{bmatrix}$ — 수직 방향 밝기 변화를 감지. 세로 모서리에 강하게 반응.
Sobel Y — 수평 방향 밝기 변화. 가로 모서리에 반응.
Gaussian blur — 주변 픽셀과 평균을 내어 부드럽게. 잡음 제거에 유용.
Laplacian $\begin{bmatrix}0 & -1 & 0\\ -1 & 4 & -1\\ 0 & -1 & 0\end{bmatrix}$ — 2차 미분, 모든 방향의 모서리.

CNN이 놀라운 이유: 이런 필터들을 사람이 설계하는 게 아니라 데이터로부터 학습합니다. 훈련된 CNN의 첫 층 필터를 시각화해보면 Sobel과 비슷한 모서리 검출기, 색 대비 검출기, 질감 검출기 등이 자동으로 나타납니다. 뒤쪽 층들로 갈수록 더 추상적인 특징(눈, 바퀴, 얼굴 일부)이 학습됩니다. 이 계층적 특징 학습이 딥러닝의 본질이자 W10 전이학습이 가능한 이유입니다.

🎮 인터랙티브: 3×3 필터 편집기

이미지에 적용할 3×3 커널을 직접 고르세요. 소벨 X·Y는 모서리를, 블러는 부드러움을, 샤프닝은 강조를 만듭니다.

커널

3. 스트라이드와 패딩

스트라이드(stride)는 필터가 한 번에 미끄러지는 칸 수. 보통 1이지만 2로 두면 출력 크기가 반으로 줄어듭니다.

패딩(padding)은 입력 가장자리에 0을 둘러주는 것. "same" 패딩이면 출력 크기가 입력과 같아집니다.

$$ \text{out} = \left\lfloor \frac{\text{in} + 2p - k}{s} \right\rfloor + 1 $$

4. 풀링

합성곱 뒤에 보통 맥스풀링을 둡니다. 2×2 영역에서 최댓값만 골라 출력 크기를 절반으로 줄입니다. 이로써 ① 계산량을 줄이고, ② 작은 위치 변화에 강인해집니다.

🎮 인터랙티브: 2×2 풀링

같은 입력에 맥스풀링과 평균풀링을 적용해 결과를 비교합니다.

3.1 스트라이드·패딩·출력 크기 공식

합성곱 연산을 실제 코드로 구현할 때 필요한 하이퍼파라미터:

커널 크기(kernel size) $k$ — 필터의 가로/세로 크기. 주로 3, 5, 7 등 홀수.
스트라이드(stride) $s$ — 필터가 한 번에 몇 픽셀씩 이동하는가. $s=1$이면 모든 위치, $s=2$면 격칸.
패딩(padding) $p$ — 입력 가장자리에 0을 몇 픽셀 두를지. 테두리 픽셀도 필터 중심에 올 수 있게 함.

입력 크기 $W_\text{in}$에 대해 출력 크기는 다음과 같습니다:

$$ W_\text{out} = \left\lfloor \frac{W_\text{in} + 2p - k}{s} \right\rfloor + 1 $$

예를 들어 $28 \times 28$ 입력에 $3 \times 3$ 커널, $s=1$, $p=1$을 쓰면 출력은 $28 \times 28$ 그대로. 이를 "same padding"이라 부르고, 크기를 유지하면서 합성곱을 적용합니다. $s=2$로 바꾸면 출력은 $14 \times 14$로 절반.

3.2 풀링 — 해상도 줄이기와 불변성 얻기

풀링(pooling)은 합성곱의 짝꿍입니다. 특징 맵을 작은 영역(보통 $2 \times 2$)으로 나누고, 각 영역에서 대표값 하나만 남깁니다.

맥스 풀링(Max pooling) — 영역 내 최댓값. "이 영역에 강한 특징이 어디에든 있는가?"를 캡처. 가장 널리 쓰임.
평균 풀링(Average pooling) — 영역 내 평균. 부드러운 다운샘플링.
전역 평균 풀링(Global Average Pooling, GAP) — 전체 맵을 하나의 숫자로. ResNet, Inception에서 완전연결층 대체.

$2 \times 2$ 풀링은 공간 해상도를 4분의 1로 줄입니다. 해상도가 낮아진 만큼 다음 층의 필터는 더 넓은 실제 영역을 보게 됩니다. 이를 "수용장(receptive field)이 커진다"고 표현합니다. 이 계층적 확대 덕분에, 깊은 층은 전체 이미지 수준의 큰 구조(얼굴 전체, 자동차 전체)를 볼 수 있게 됩니다.

풀링의 또 다른 장점은 작은 평행이동에 대한 불변성입니다. 입력이 1픽셀 움직여도 $2 \times 2$ 풀링의 출력은 대개 바뀌지 않습니다 — "대략 이 영역에 특징이 있다"만 중요하기 때문. 이는 CNN이 정확한 위치 대신 "있음/없음"에 집중하게 만듭니다.

5. LeNet — 최초의 성공 사례

1989~1998년에 걸쳐 Bell Labs의 Yann LeCun이 개발한 LeNet-5는 CNN의 현대적 원형입니다. 1998년 논문 "Gradient-Based Learning Applied to Document Recognition"에서 우편번호 손글씨 인식과 수표 금액 판독에 쓰였고, 실제로 1990년대 후반 미국 은행의 수표 처리 시스템에 배치되어 전체 수표 처리량의 10-20%를 자동 처리했습니다. 이는 딥러닝 이전에 CNN이 실용화된 거의 유일한 사례로 기록됩니다.

LeNet-5의 구조: [Conv5→Pool2→Conv5→Pool2→FC→FC→Out]. 파라미터 수는 약 6만 개, 현대 기준으로 보면 극도로 작지만 당시 하드웨어로는 큰 편이었습니다. 이 단순한 구조가 오늘날 ResNet, Inception 같은 거대 모델의 기본 레이아웃을 이미 보여주고 있습니다 — "합성곱으로 특징 추출, 풀링으로 공간 축소, 마지막에 완전연결층으로 분류".

LeNet 이후 14년간 CNN 연구는 거의 정체됐습니다. 원인은 두 가지: 데이터가 부족했고(당시 MNIST 외에 제대로 된 벤치마크가 없었음), 하드웨어가 느렸습니다. 이 침묵은 2012년 Alex Krizhevsky의 AlexNet이 ImageNet 대회에서 2등과 10%p 이상의 격차로 압도적 우승을 거두면서 한 번에 깨집니다. GPU, 빅데이터, 그리고 Hinton의 끈질긴 믿음 — 이 셋이 만난 순간이 현대 딥러닝의 시작입니다. 자세한 이야기는 W10에서.

5.1 MNIST에서 LeNet이 본 것 — 텐서 모양 따라가기

한 이미지가 LeNet을 통과하며 어떻게 변형되는지 단계별로 봅시다. 입력은 $28 \times 28$ 회색조 이미지 한 장, 텐서 모양 $[1, 28, 28]$ (채널, 높이, 너비).

Conv1: $5 \times 5$ 필터 6개, stride=1, padding=0 → 출력 $[6, 24, 24]$. 왜 24? $(28 - 5)/1 + 1 = 24$.
Pool1: $2 \times 2$ max pooling, stride=2 → $[6, 12, 12]$.
Conv2: $5 \times 5$ 필터 16개 → $[16, 8, 8]$.
Pool2: $2 \times 2$ → $[16, 4, 4]$.
Flatten: $16 \times 4 \times 4 = 256$차원 벡터.
FC1: 256 → 120.
FC2: 120 → 84.
Out: 84 → 10 (클래스 개수).

공간 해상도는 $28 \to 24 \to 12 \to 8 \to 4$로 줄고, 채널 수(특징의 종류)는 $1 \to 6 \to 16$으로 늘어납니다. "해상도는 줄이고 추상화는 높이는" 이 피라미드 구조가 현대 CNN의 보편적 패턴입니다.

6. 코드 예제 (PyTorch)

import torch.nn as nn

class LeNet(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 6, 5)     # 1ch → 6ch, 5×5 필터
        self.pool  = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1   = nn.Linear(16*4*4, 120)
        self.fc2   = nn.Linear(120, 84)
        self.fc3   = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(torch.relu(self.conv1(x)))
        x = self.pool(torch.relu(self.conv2(x)))
        x = x.view(x.size(0), -1)
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

📖 더 깊이 공부하기

Sung Kim Lec 11 — CNN 한국어 강의.
CS231n Convolutional Networks — Stanford, cs231n.github.io. 가장 명쾌한 설명.
LeNet 원논문 — LeCun 외, "Gradient-Based Learning Applied to Document Recognition" (1998).
A Guide to Convolution Arithmetic — Dumoulin·Visin. 출력 크기 공식의 모든 것.