AI Paper 읽기

일기

오늘은 일기로 글을 쓰기 시작 하겠다.

나는 C언어를 처음 배운게 2004년, 컴퓨터공학을 공부하고 게임개발 위해 투자한 시간만 2만시간이 넘는다. 비록 게임개발자로 일한것은 1년밖에 되지 않지만, 다른일 을 하면서도 중간 중간 코딩하는것을 잊은적이 없다. 코딩 실력을 유지하기위해서? 아니다 코딩자체가 재밌고, 무언가 만들었을때 사람들이 좋아해주면 그것으로 뿌듯하고 기분이 좋은일이라 계속 했던것 같다.

본격 AI시대에 들어서면서 머신러닝 딥러닝을 공부한지 벌써 한달이 지났다. 정신없게 만드는 새로운 용어들이 하루에도 몇 개씩 계속 나타난다. 이제 딥러닝이 왜 딥러닝 인지 뉴럴네트워크는 왜 그렇게 불리는지 머신러닝, 딥러닝 모델 십여개를 학습시켜보면서 감이 오기 시작한다. 최근에는 CV를 배우면서 상용 모델을 몇가지 써보면서 문득 이런 고민에 빠졌다.

  • “이렇게 많은 모델들 구조를 다 알아야 하나?”
  • “이 모델들의 특징을 모르면, 내가 필요한 모델이 뭔지 알고 사용할수 있을까?”
  • “연구를 해봐야한다면 논문을 다 읽어봐야하나? 구현만 해보면 충분한가?”

모든 사람이 알겠지만, AI의 발전은 미친듯이 빠르다. 그만큼 AI 머신러닝 관련 논문이 수도없이 나오고 있다. 그동안 인기있던 모델들을 100% 다 이해하면, 내가 스스로 모델을 만들어낼때 도움이 되겠지만, 너무나 시간이 많이 걸릴것 같다. 따라서 분야별로 논문을봐서 특징이나 사용기술에대한 개념을 이해하기위한 모델들을 정리하고 순서대로 공부를 해야겠다는 전략을 세우게 됨.

공부법은 아래처럼 하고 매주 1-2개씩 모델을 깊게 공부하는 시간을 가져야할것같다.

모델을 공부할 때 꼭 염두해야 할 점

  1. 각 모델이 어떤 문제를 해결하려 했는지를 이해하기. (이전 모델에서는 어떤 방법을 썼고, 왜 부족했는지 30분정도 알아보기)
  2. 전체를 한번에 이해하려 하지말고 특징이 뭔지 살펴보기 (논문의 Abstract, Figure, Experiment 순으로 읽어 전체 그림을 잡기)
  3. 수식은 나중에 완벽히 분석하고, 특징파악 끝났으면 PyTorch 사용해서 핵심 모듈만 구현부터 해보기 (전체모듈 다 안해봐도 됨, 반복이라서)
  4. 공개된 코드를 읽고 논문과 대조해보기.
  5. 해당 모델을 인용한 논문 2-3개 찾아보고 어느 부분이 한계라고 지적했는지 보기
  6. 코드 구현 끝났으면 실제로 사용해서 대충 학습시간이나 추론시간등 감을 익혀보고 다른 모델과 비교해보기
  7. 70%만 이해한다는 생각으로 논문을 빠르게 습득하고 넘어가기 나머지 30%는 다른 모델을 공부하거나 실제 프로젝트를 진행하면서 채워나가기

분야 간 연결도 중요합니다. Transformer는 NLP에서 나왔지만 ViT(CV), Whisper(음성), DiT(이미지 생성)로 그대로 흘러들어갔습니다. CLIP은 이미지-텍스트 정렬이고 Stable Diffusion의 핵심 부품입니다. 분야를 별개로 공부하다 보면 이런 연결이 안 보이는데, “이 개념이 다른 분야에서는 어떻게 쓰이지?”라는 질문을 항상 갖고 있는 것만으로 이해의 깊이가 달라집니다

논문 읽기 전에 필요한 수학 기초로는 선형대수(행렬 곱, 고유값), 확률·통계(베이즈 정리, KL divergence, 가우시안 분포), 미적분(편미분, 체인룰), 정보이론(엔트로피, cross-entropy)이 있습니다. 이걸 미리 다 공부하려 하지 말고, 논문 읽다가 막히는 수식이 나올 때 그 개념만 찾아보는 방식이 훨씬 효율적입니다.

각 분야별로 공부해야 할 것들

딥러닝·CV·NLP·음성 분야별 뼈대 모델 공부 순서 로드맵

먼저 이걸 잡아야 모든 분야가 열립니다. 아래 개념들은 분야를 불문하고 모든 논문에서 당연한 것으로 전제합니다. 모델보다 개념 순서로 접근하세요.
1986역전파 (Backpropagation)필수
Rumelhart et al. 모든 딥러닝의 학습 엔진. 체인룰로 gradient를 역방향 전파. 이걸 수식으로 직접 유도해보는 것이 가장 중요한 첫 단계.
핵심 개념: Chain rule, computational graph, gradient flow
2012~SGD / Adam / 최적화기필수
SGD, Momentum, RMSProp, Adam. 단순 경사하강법부터 적응형 학습률까지. Adam이 왜 대부분의 상황에서 기본값인지 이해.
핵심 개념: Learning rate, momentum, adaptive LR, weight decay
2015Batch Normalization필수
Ioffe & Szegedy. 레이어 입력 분포를 정규화해 학습을 안정화. 왜 없으면 깊은 네트워크가 학습이 안 되는지 이해가 핵심.
핵심 개념: Internal covariate shift, running stats, train vs inference 차이
2015Residual Connection (ResNet)필수
He et al. F(x)+x 형태의 skip connection으로 gradient vanishing 해결. 이게 없으면 100층 이상 학습 불가. 현재 거의 모든 딥러닝 구조의 근간.
핵심 개념: Gradient highway, identity mapping, depth scalability
2017Attention / Transformer필수
Vaswani et al. “Attention is All You Need”. Query-Key-Value attention 메커니즘. NLP뿐 아니라 이후 CV, 음성, 이미지생성 모두의 기반. 논문 전체를 수식까지 이해하는 것을 목표로.
핵심 개념: Scaled dot-product attention, multi-head, positional encoding
공부 순서 원칙: 역전파 → 최적화기 → BatchNorm/Dropout → ResNet → Attention. 이 순서가 무너지면 이후 모든 논문이 맥락 없이 읽힙니다. 각 개념마다 PyTorch로 미니 구현을 해보세요.
CV 공부 순서: 분류 → 검출 → 분할 → Transformer 순으로. 각 단계가 이전 단계의 아이디어를 확장합니다.
2012AlexNet뼈대
Krizhevsky et al. ImageNet을 처음 정복한 딥 CNN. ReLU, Dropout, GPU 학습을 도입. “딥러닝 르네상스”의 시작점.
핵심 개념: ReLU 활성화, Dropout, GPU 병렬 학습, Data augmentation
2015ResNet뼈대
He et al. Residual block으로 152층까지 안정 학습. 현재까지도 CV 백본의 표준. ResNet-50/101은 수백 개 논문의 baseline.
핵심 개념: Residual block, bottleneck, depth vs width tradeoff
2019EfficientNet
Tan & Le. 깊이·너비·해상도를 동시에 스케일하는 compound scaling. 같은 연산량에서 최고 정확도.
핵심 개념: Compound scaling, NAS, MobileNet 계열
2015Faster R-CNN뼈대
Ren et al. Region Proposal Network(RPN)으로 detection을 완전 end-to-end화. Two-stage detection의 표준 구조.
핵심 개념: RPN, anchor box, RoI Pooling, two-stage pipeline
2016YOLO (v1~)뼈대
Redmon et al. 이미지를 한 번에 처리하는 one-stage detection. 속도와 정확도의 트레이드오프를 이해하는 핵심 모델.
핵심 개념: Grid cell, confidence score, one-stage vs two-stage
2017FPN (Feature Pyramid Network)
Lin et al. 다중 스케일 feature map을 계층적으로 결합. 작은 객체 검출 성능을 크게 향상. 거의 모든 최신 detector의 neck 구조.
핵심 개념: Top-down pathway, lateral connection, multi-scale feature
2020ViT (Vision Transformer)뼈대
Dosovitskiy et al. 이미지를 패치로 나눠 Transformer에 입력. “CNN 없이도 된다”는 것을 증명. 이후 CV Transformer의 원조.
핵심 개념: Patch embedding, positional encoding, class token
2021Swin Transformer
Liu et al. 계층적 구조 + shifted window attention으로 ViT의 고해상도 한계를 극복. 현재 CV Transformer 백본 표준.
핵심 개념: Shifted window, hierarchical feature, linear complexity
NLP 공부 순서: RNN의 한계 이해 → Attention 등장 배경 → Transformer → Pre-training 패러다임으로. 이 흐름이 “왜”를 설명합니다.
2014Seq2Seq + LSTM뼈대
Sutskever et al. 인코더-디코더 구조로 기계번역. LSTM이 왜 vanilla RNN보다 장기 의존성을 잘 처리하는지가 핵심.
핵심 개념: LSTM gate (input/forget/output), hidden state, teacher forcing
2015Attention (Bahdanau)뼈대
Bahdanau et al. RNN의 bottleneck(context vector)을 깨는 attention. Transformer attention의 직접적 전신. 이 논문을 이해해야 Transformer가 왜 나왔는지 보인다.
핵심 개념: Alignment score, soft attention, context vector per step
2017Transformer필수
Vaswani et al. “Attention is All You Need”. 이 논문 하나가 NLP, CV, 음성, 이미지생성을 전부 바꿨다. 수식 하나하나를 직접 구현해보는 게 목표.
핵심 개념: Multi-head attention, FFN, positional encoding, encoder-decoder
2018BERT뼈대
Devlin et al. (Google). Masked Language Model로 대규모 사전학습 후 fine-tuning. “Pre-train → Fine-tune” 패러다임의 정립.
핵심 개념: MLM, NSP, bidirectional context, fine-tuning
2018~GPT 시리즈뼈대
Radford et al. (OpenAI). Decoder-only, causal language modeling. GPT-1→2→3→4로 스케일이 곧 성능임을 증명. 현재 LLM의 주류 구조.
핵심 개념: Causal masking, in-context learning, scaling law
2022InstructGPT / RLHF
Ouyang et al. Reinforcement Learning from Human Feedback. 언어모델을 인간 의도에 align. ChatGPT의 직접 전신.
핵심 개념: SFT, reward model, PPO, alignment
Diffusion 공부 순서: VAE로 latent space 개념 → GAN으로 생성 학습 이해 → DDPM으로 diffusion 원리 → Stable Diffusion으로 실용화 흐름.
2013VAE (Variational Autoencoder)뼈대
Kingma & Welling. Encoder가 latent distribution을 출력하고 sampling으로 생성. ELBO, reparameterization trick이 핵심. Latent diffusion의 latent space 개념의 직접 전신.
핵심 개념: ELBO, KL divergence, reparameterization trick, latent space
2014GAN뼈대
Goodfellow et al. Generator vs Discriminator의 minimax 게임. 이미지 생성 패러다임을 열었고, diffusion 이전까지 SOTA. 학습 불안정성이 왜 생기는지 이해 필수.
핵심 개념: Minimax game, mode collapse, Wasserstein distance (WGAN)
2020DDPM필수
Ho et al. Forward(노이즈 추가) → Reverse(노이즈 제거) 과정으로 이미지 생성. Diffusion의 수학적 기반. 이 논문의 수식을 이해하는 것이 이 분야 진입의 관문.
핵심 개념: Forward/reverse process, noise schedule, ELBO 유도, epsilon prediction
2021CLIP뼈대
Radford et al. (OpenAI). 이미지-텍스트 쌍을 contrastive learning으로 학습. “텍스트로 이미지 검색/생성”의 기반. Stable Diffusion의 text encoder가 CLIP.
핵심 개념: Contrastive learning, zero-shot transfer, image-text alignment
2022Stable Diffusion (LDM)뼈대
Rombach et al. VAE의 latent space에서 diffusion을 수행해 연산량을 획기적으로 절감. CLIP text encoder + U-Net denoiser + VAE 구조. 현재 이미지 생성 표준.
핵심 개념: Latent diffusion, cross-attention for text conditioning, CFG
2023DiT (Diffusion Transformer)
Peebles & Xie. U-Net 대신 Transformer를 denoiser로 사용. 스케일 법칙이 잘 적용됨. Sora 등 최신 video generation의 기반.
핵심 개념: Patch-based latent, adaLN conditioning, scalable diffusion
OCR 공부 순서: CNN으로 feature 추출 → RNN/CTC로 시퀀스 인식 → Attention 기반 → Transformer 통합. OCR은 CV + NLP의 교차점입니다.
2015CRNN + CTC뼈대
Shi et al. CNN(특징 추출) + RNN(시퀀스 모델링) + CTC(정렬 없는 학습). 문자 위치 어노테이션 없이 end-to-end 학습. OCR의 사실상 첫 딥러닝 표준.
핵심 개념: CTC loss, blank token, 문자 정렬 문제, feature map to sequence
2016Attention OCR뼈대
Baek et al. 계열. Attention으로 어느 위치를 볼지 학습. CTC 대비 불규칙 레이아웃, 곡선 텍스트에 강함. STN(공간 변환 네트워크)과 조합되는 경우 많음.
핵심 개념: Spatial attention, STN, irregular text recognition
2019CRAFT (텍스트 검출)
Baek et al. 문자 단위 affinity로 텍스트 영역 검출. 곡선, 다방향 텍스트 검출에 강함. OCR 파이프라인의 검출(detection) 단계.
핵심 개념: Character region score, affinity map, weakly supervised
2021TrOCR현대 표준
Li et al. (Microsoft). ViT encoder + BART decoder. 사전학습된 Transformer를 OCR에 적용. 현재 문서 OCR 최고 성능 수준. Handwriting에도 강함.
핵심 개념: Pre-trained ViT encoder, autoregressive decoding, transfer learning for OCR
음성 인식 공부 순서: 음성 신호 기초(MFCC) → HMM-GMM 이해(딥러닝 왜 필요한지) → CTC 기반 → Attention → Whisper.
기초MFCC / Spectrogram필수 개념
모델이 아니지만 반드시 먼저 이해해야 하는 전처리. 음성 파형을 어떻게 주파수 표현으로 바꾸는지. 현재 mel spectrogram이 사실상 표준 입력 형식.
핵심 개념: FFT, mel filterbank, MFCC, log mel spectrogram
2014DeepSpeech (Baidu)뼈대
Hannun et al. End-to-end 음성 인식의 선구자. RNN + CTC로 음소-문자 정렬 없이 학습. HMM 없이 딥러닝만으로 ASR 가능성을 증명.
핵심 개념: End-to-end ASR, CTC loss, bidirectional RNN
2015Listen, Attend and Spell (LAS)뼈대
Chan et al. Attention 기반 seq2seq ASR. 입력 음성의 어느 부분을 볼지 attention으로 결정. CTC의 조건부 독립 가정을 깸.
핵심 개념: Listener encoder, speller decoder, content-based attention
2020wav2vec 2.0뼈대
Baevski et al. (Meta). 음성 자기지도학습(self-supervised). 대량의 레이블 없는 음성으로 사전학습 후 소량 레이블로 fine-tuning. ASR의 BERT.
핵심 개념: Contrastive loss, quantized speech representations, self-supervised pretraining
2022Whisper현재 표준
Radford et al. (OpenAI). 68만 시간 웹 데이터 대규모 학습. Encoder-decoder Transformer. 99개 언어 다국어, 번역 동시 지원. 현재 가장 널리 쓰이는 ASR.
핵심 개념: Multitask training, log-mel input, timestamp prediction
음성 생성 공부 순서: Autoregressive(WaveNet) → non-autoregressive(FastSpeech) → Diffusion 기반(DiffWave) → 최신 대형 모델(VALL-E). 속도와 품질의 트레이드오프가 발전의 축입니다.
2016WaveNet뼈대
van den Oord et al. (DeepMind). Dilated causal convolution으로 고품질 음성 파형 생성. 처음으로 사람 수준 TTS 달성. 느리지만 품질의 기준을 세움.
핵심 개념: Dilated causal conv, autoregressive waveform, μ-law encoding
2018Tacotron 2뼈대
Wang et al. (Google). 텍스트 → mel spectrogram (seq2seq) + WaveNet vocoder 구조. 자연스러운 억양·리듬 학습. 현대 TTS 2단계 파이프라인의 표준.
핵심 개념: Location-sensitive attention, stop token, mel 2단계 구조
2020FastSpeech 2뼈대
Ren et al. (Microsoft). 병렬 생성으로 Tacotron 대비 수십 배 빠름. Duration, pitch, energy predictor로 운율 명시적 제어. 실용적 TTS의 기준.
핵심 개념: Non-autoregressive, duration predictor, pitch/energy control
2021VITS
Kim et al. Variational Inference + GAN + flow 결합. 텍스트 → waveform 1단계 end-to-end. 고품질 + 실시간 속도 달성.
핵심 개념: Normalizing flow, GAN discriminator, end-to-end TTS
2023VALL-E최신 패러다임
Wang et al. (Microsoft). 3초 음성 샘플만으로 화자 음성 복제. 언어모델처럼 audio codec token을 예측. 음성 생성의 GPT-3 모멘트.
핵심 개념: Neural audio codec, in-context learning for speech, zero-shot voice cloning

댓글 남기기