Week 12. Seq2Seq와 Attention

번역기처럼 시퀀스를 받아 시퀀스를 만드는 인코더-디코더 구조, 그리고 모든 LLM의 어머니인 어텐션 메커니즘.

이번 주에 배우는 것

Sequence-to-Sequence 문제
인코더-디코더 구조
고정된 컨텍스트 벡터의 한계
Attention 메커니즘
빔 서치 디코딩

1. Seq2Seq 문제 — 시퀀스를 받아 시퀀스를 내기

W11 RNN/LSTM에서 다룬 RNN은 시퀀스를 받아 하나의 출력을 내는 구조였습니다 (예: 감성 분류 "긍정/부정"). 그러나 현실엔 시퀀스를 받아 시퀀스를 내야 하는 문제가 훨씬 많습니다:

기계 번역: "나는 학교에 갔다" → "I went to school"
요약: 긴 뉴스 기사 → 한 문단 요약
챗봇: 질문 → 답변
음성 인식: 오디오 신호 시퀀스 → 글자 시퀀스
코드 생성: 자연어 명세 → 파이썬 코드
이미지 캡셔닝: 이미지 → 설명 문장 (엄밀히는 "시퀀스 in → 시퀀스 out"의 일반화)

이 문제들의 공통 어려움: 입력과 출력의 길이가 서로 다르고, 미리 예측할 수도 없다는 것. "안녕"(1단어)을 "hi"(1단어)로 번역하는 경우와, 20단어 문장을 30단어로 번역하는 경우가 같은 모델로 처리되어야 합니다.

해답은 두 개의 RNN을 이어붙이는 것입니다. 하나는 입력을 읽어 "의미 벡터"로 압축하는 인코더(encoder), 다른 하나는 그 의미 벡터로부터 출력을 한 단어씩 생성하는 디코더(decoder). 이를 Seq2Seq 모델이라 부릅니다.

2. 인코더-디코더 구조

2014년 Google Brain의 Ilya Sutskever, Oriol Vinyals, Quoc Le가 발표한 논문 "Sequence to Sequence Learning with Neural Networks"는 Seq2Seq의 원형을 확립했습니다. 같은 해 Cho Kyunghyun 등이 "RNN Encoder-Decoder for Statistical Machine Translation"에서 유사한 아이디어를 제안했고, 여기서 GRU도 함께 등장했습니다.

구조는 단순합니다:

인코더 RNN: 입력 시퀀스 $x_1, x_2, \dots, x_T$를 한 스텝씩 읽으며 은닉 상태를 업데이트. 마지막 은닉 상태 $h_T$가 "입력 문장 전체의 요약" 역할을 하는 컨텍스트 벡터 $c$가 됨.
디코더 RNN: $c$를 초기 상태로 받아서, 출력을 한 단어씩 생성. 각 시점에서 이전 출력 단어를 다음 시점 입력으로 재활용 (autoregressive).

디코더는 시작 토큰 <SOS>에서 시작해 종료 토큰 <EOS>를 낼 때까지 계속 생성합니다. 이 덕분에 출력 길이가 자유롭게 결정됩니다.

학습은 어떻게 할까요? 보통 "정답 시퀀스"를 사용해 teacher forcing을 씁니다 — 디코더의 이전 출력 대신 정답 단어를 다음 입력으로 넣어 학습을 안정화합니다. 그 대신 추론 시에는 자신의 이전 출력을 쓰게 되는 train-test 불일치가 생기는데, 이를 완화하는 scheduled sampling 같은 기법이 후속 연구에서 제안됐습니다.

2.1 Seq2Seq의 의의

Seq2Seq가 혁명적이었던 이유는 "모든 것을 End-to-End로 학습"할 수 있었기 때문입니다. 그 이전의 기계 번역은 여러 단계(토큰화→구문 분석→단어 정렬→구 번역→재정렬)로 나뉘어 각 단계가 독립적으로 튜닝되었는데, Seq2Seq는 이 모두를 하나의 네트워크로 대체했습니다. 성능도 곧바로 당시 최고 기법을 따라잡았고, 이것이 2016년 Google Translate의 GNMT 시스템으로 실제 서비스에 적용되어 하룻밤 사이 번역 품질이 급상승한 사건("the Google Translate revolution")의 배경입니다.

🎮 인터랙티브: 인코더-디코더 흐름

한국어 4단어가 인코더로 들어가 컨텍스트가 되고, 디코더가 영어 4단어를 만들어내는 과정을 시각화합니다. 슬라이더로 시점을 옮겨보세요.

시점 3

3. 고정 컨텍스트 벡터의 병목

Seq2Seq는 훌륭했지만 한 가지 근본적 문제가 있었습니다. 아무리 복잡한 문장이라도 단 하나의 고정 크기 벡터로 압축해야 한다는 점입니다. 문장이 길어질수록 더 많은 정보가 같은 크기의 벡터에 욱여 넣어지니, 디코더는 시작 부분을 "기억"할 여력을 잃습니다.

실제로 2014~2015년 실험에서 입력 문장이 20단어를 넘어가면 Seq2Seq의 번역 품질이 급격히 떨어지는 것이 관찰되었습니다. 마치 시험 직전에 500쪽 책을 한 단어("공부")로 요약해 시험을 치려는 것과 같은 상황입니다. 이 "정보 병목(information bottleneck)"이 RNN 번역기의 결정적 약점이었습니다.

몇 가지 완화책이 제시되었습니다:

입력 역순 투입(Sutskever) — 입력 문장을 거꾸로 넣으면 디코더 시작 시점과 입력 시작 시점이 가까워져 기억이 조금 덜 증발.
깊은 LSTM(4층, 8층) — 더 큰 저장 용량.
양방향 RNN — 입력을 앞뒤 양쪽에서 읽어 더 풍부한 표현.

그러나 이 모두는 증상 완화였고, 근본 치료는 전혀 다른 아이디어에서 나왔습니다: "애초에 모든 정보를 하나의 벡터로 압축하지 말자."

4. Attention — "집중"을 학습하다

2014년 9월, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio가 ICLR에 투고한 논문 "Neural Machine Translation by Jointly Learning to Align and Translate"가 어텐션 메커니즘을 처음 선보였습니다. 아이디어는 심플하지만 혁명적입니다.

어텐션 한 줄 요약 — "디코더가 매 출력 시점마다, 인코더의 모든 은닉 상태를 참고하되, 지금 생성하는 단어와 관련 있는 위치에만 집중한다."

구체적으로는 다음과 같이 작동합니다:

인코더는 입력 단어마다 은닉 상태 $h_1, h_2, \dots, h_T$를 모두 저장해둡니다 (마지막 것만 쓰는 게 아님).
디코더가 출력 시점 $t$에서 새 단어를 내려고 할 때, 자신의 현재 상태 $s_t$와 모든 $h_i$ 사이의 점수(score)를 계산합니다.
점수를 softmax로 정규화해 주의 가중치 $\alpha_{t,i}$를 얻습니다.
가중치로 가중 평균한 컨텍스트 벡터 $c_t$를 만들어 디코더에 공급합니다.

수식:

$$ \alpha_{t,i} = \frac{\exp(\text{score}(s_t, h_i))}{\sum_j \exp(\text{score}(s_t, h_j))}, \quad c_t = \sum_i \alpha_{t,i} h_i $$

이제 디코더는 매 시점마다 "어디에 집중할지"를 스스로 결정합니다. 이 가중치를 시각화하면 기계 번역기가 "school"을 만들 때 한국어 "학교"를 보고, "went"를 만들 때 "갔다"를 본다는 것을 확인할 수 있습니다. 말 그대로 "번역 정렬"이 자동으로 학습되는 것.

4.1 점수 함수의 두 계열 — Bahdanau vs Luong

점수 함수의 형태에 따라 두 대표적 변형이 있습니다:

Bahdanau (Additive, 2014): $\text{score}(s, h) = v^\top \tanh(W_s s + W_h h)$. 작은 피드포워드 신경망으로 점수를 계산. 파라미터가 더 많지만 유연.
Luong (Multiplicative/Dot, 2015): $\text{score}(s, h) = s^\top W h$ 또는 단순히 $s^\top h$. 행렬 곱 하나로 끝. 훨씬 빠름.

현대 Transformer(W13)는 Luong의 dot-product 방식을 확장한 "scaled dot-product attention"을 씁니다. 두 방식의 실증적 성능은 비슷하지만 속도와 단순성에서 dot-product가 승리했습니다.

4.2 어텐션이 바꾼 것들

어텐션의 등장은 딥러닝 NLP의 전환점이었습니다. 효과는 즉각적이었습니다:

긴 문장에서도 번역 품질이 떨어지지 않음
"정렬(alignment)" 해석 가능성 획득 — 디버깅과 신뢰성에 크게 도움
장거리 의존성 처리 개선 — LSTM이 놓친 연결도 어텐션이 잡아냄

그리고 결정적으로, 2017년 Google의 "Attention Is All You Need" 논문이 "어텐션만 있으면 RNN 자체가 필요 없다"는 주장으로 Transformer를 제안했고, 이후 모든 LLM의 기반이 됩니다. 어텐션은 단순한 개선을 넘어 신경망 설계 패러다임 자체를 바꿨습니다.

🎮 인터랙티브: 어텐션 가중치 히트맵

한→영 번역의 가상 어텐션 행렬입니다. 행은 출력 단어, 열은 입력 단어. 진할수록 큰 가중치입니다. 슬라이더로 패턴을 바꿔보세요.

대각 강도 3

왜 어텐션이 혁명이었나. 거리에 상관없이 모든 위치를 직접 연결하므로 장기 의존성이 자연스럽게 풀립니다. 그리고 가중치가 학습 가능하므로 데이터가 알아서 어디를 봐야 할지 결정합니다. 이 통찰이 트랜스포머로 이어집니다.

5. 빔 서치(Beam Search)

디코딩 시 매 시점 가장 확률 높은 단어 하나만 고르는 그리디 디코딩은 근시안적입니다. 빔 서치는 상위 $k$개 후보를 동시에 유지하며 전체적으로 점수가 높은 시퀀스를 찾습니다. $k=1$이면 그리디, $k$가 크면 더 좋은 결과지만 느립니다.

🎮 인터랙티브: 빔 서치 트리

각 시점에서 빔 폭만큼의 후보가 살아남는 모습을 봅니다. 빔 폭이 커질수록 트리가 넓어집니다.

빔 폭 3

6. 코드 예제 (PyTorch 개념)

import torch.nn as nn

class Encoder(nn.Module):
    def __init__(self, vocab, hid):
        super().__init__()
        self.emb = nn.Embedding(vocab, hid)
        self.gru = nn.GRU(hid, hid, batch_first=True)
    def forward(self, x):
        return self.gru(self.emb(x))   # (out, h)

class Attention(nn.Module):
    def __init__(self, hid):
        super().__init__()
        self.v = nn.Linear(hid*2, 1)
    def forward(self, dec_h, enc_outs):
        # dec_h: (B,H), enc_outs: (B,T,H)
        scores = self.v(torch.cat([dec_h.unsqueeze(1).expand_as(enc_outs), enc_outs], -1))
        alpha = torch.softmax(scores.squeeze(-1), dim=1)
        ctx = (alpha.unsqueeze(-1) * enc_outs).sum(1)
        return ctx, alpha

📖 더 깊이 공부하기

Sequence to Sequence Learning — Sutskever 외(2014).
Neural Machine Translation by Jointly Learning to Align and Translate — Bahdanau 외(2015). 어텐션 원논문.
Visualizing Neural Machine Translation — Jay Alammar의 그림 강의.
Effective Approaches to Attention-based NMT — Luong 외(2015).