<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>AI-Paper &#8211; KGG Studio</title>
	<atom:link href="https://blog.kggstudio.com/category/ai-paper/feed/" rel="self" type="application/rss+xml" />
	<link>https://blog.kggstudio.com</link>
	<description>개발자 테크 블로그</description>
	<lastBuildDate>Tue, 21 Apr 2026 09:26:02 +0000</lastBuildDate>
	<language>ko-KR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://blog.kggstudio.com/wp-content/uploads/2025/05/cropped-K-1-32x32.png</url>
	<title>AI-Paper &#8211; KGG Studio</title>
	<link>https://blog.kggstudio.com</link>
	<width>32</width>
	<height>32</height>
</image> 
<site xmlns="com-wordpress:feed-additions:1">244941309</site>	<item>
		<title>AI Paper 읽기</title>
		<link>https://blog.kggstudio.com/ai-paper/</link>
					<comments>https://blog.kggstudio.com/ai-paper/#respond</comments>
		
		<dc:creator><![CDATA[TimTam]]></dc:creator>
		<pubDate>Tue, 21 Apr 2026 01:08:01 +0000</pubDate>
				<category><![CDATA[AI-Paper]]></category>
		<category><![CDATA[Dev]]></category>
		<guid isPermaLink="false">https://blog.kggstudio.com/?p=500</guid>

					<description><![CDATA[일기 오늘은 일기로 글을 쓰기 시작 하겠다. 나는 C언어를 처음 배운게 2004년, 컴퓨터공학을 공부하고 게임개발 위해 투자한 시간만 2만시간이 넘는다. 비록 게임개발자로 일한것은 1년밖에 되지 않지만, 다른일 을 하면서도 중간 중간 코딩하는것을 잊은적이 없다. 코딩 실력을 유지하기위해서? 아니다 코딩자체가 재밌고, 무언가 만들었을때 사람들이 좋아해주면 그것으로 뿌듯하고 기분이 좋은일이라 계속 했던것 같다. 본격 AI시대에 들어서면서 머신러닝 ... <a title="AI Paper 읽기" class="read-more" href="https://blog.kggstudio.com/ai-paper/" aria-label="AI Paper 읽기에 대해 더 자세히 알아보세요">더 읽기</a>]]></description>
										<content:encoded><![CDATA[
<h2 class="wp-block-heading">일기</h2>



<p>오늘은 일기로 글을 쓰기 시작 하겠다.</p>



<p> 나는 C언어를 처음 배운게 2004년, 컴퓨터공학을 공부하고 게임개발 위해 투자한 시간만 2만시간이 넘는다. 비록 게임개발자로 일한것은 1년밖에 되지 않지만, 다른일 을 하면서도 중간 중간 코딩하는것을 잊은적이 없다. 코딩 실력을 유지하기위해서? 아니다 코딩자체가 재밌고, 무언가 만들었을때 사람들이 좋아해주면 그것으로 뿌듯하고 기분이 좋은일이라 계속 했던것 같다.</p>



<p> 본격 AI시대에 들어서면서 머신러닝 딥러닝을 공부한지 벌써 한달이 지났다. 정신없게 만드는 새로운 용어들이 하루에도 몇 개씩 계속 나타난다. 이제 딥러닝이 왜 딥러닝 인지 뉴럴네트워크는 왜 그렇게 불리는지 머신러닝, 딥러닝 모델 십여개를 학습시켜보면서 감이 오기 시작한다. 최근에는 CV를 배우면서 상용 모델을 몇가지 써보면서 문득 이런 고민에 빠졌다.</p>



<ul class="wp-block-list">
<li>&#8220;이렇게 많은 모델들 구조를 다 알아야 하나?&#8221;</li>



<li>&#8220;이 모델들의 특징을 모르면, 내가 필요한 모델이 뭔지 알고 사용할수 있을까?&#8221;</li>



<li>&#8220;연구를 해봐야한다면 논문을 다 읽어봐야하나? 구현만 해보면 충분한가?&#8221;</li>
</ul>



<p>모든 사람이 알겠지만, AI의 발전은 미친듯이 빠르다. 그만큼 AI 머신러닝 관련 논문이 수도없이 나오고 있다. 그동안 인기있던 모델들을 100% 다 이해하면, 내가 스스로 모델을 만들어낼때 도움이 되겠지만, 너무나 시간이 많이 걸릴것 같다. 따라서 분야별로 논문을봐서 특징이나 사용기술에대한 개념을 이해하기위한 모델들을 정리하고 순서대로 공부를 해야겠다는 전략을 세우게 됨.</p>



<p>공부법은 아래처럼 하고 매주 1-2개씩 모델을 깊게 공부하는 시간을 가져야할것같다.</p>



<div>
<h2 class="wp-block-heading">모델을 공부할 때 꼭 염두해야 할 점</h2>
</div>



<ol class="wp-block-list">
<li>각 모델이 어떤 문제를 해결하려 했는지를 이해하기. (<strong>이전 모델에서는 어떤 방법</strong>을 썼고, 왜 부족했는지 30분정도 알아보기)</li>



<li>전체를 한번에 이해하려 하지말고 특징이 뭔지 살펴보기 (논문의 Abstract, Figure, Experiment 순으로 읽어 <strong>전체 그림을 잡기</strong>)</li>



<li>수식은 나중에 완벽히 분석하고, 특징파악 끝났으면 <strong>PyTorch 사용해서 핵심 모듈만 구현</strong>부터 해보기 (전체모듈 다 안해봐도 됨, 반복이라서)</li>



<li><strong>공개된 코드를 읽고 논문과 대조</strong>해보기.</li>



<li>해당 모델을 인용한 논문 2-3개 찾아보고 <strong>어느 부분이 한계라고 지적</strong>했는지 보기</li>



<li>코드 구현 끝났으면 실제로 사용해서 대충 학습시간이나 추론시간등 감을 익혀보고 다른 모델과 비교해보기</li>



<li>70%만 이해한다는 생각으로 논문을 빠르게 습득하고 넘어가기 나머지 30%는 다른 모델을 공부하거나 실제 프로젝트를 진행하면서 채워나가기</li>
</ol>



<p><strong>분야 간 연결도 중요합니다.</strong> Transformer는 NLP에서 나왔지만 ViT(CV), Whisper(음성), DiT(이미지 생성)로 그대로 흘러들어갔습니다. CLIP은 이미지-텍스트 정렬이고 Stable Diffusion의 핵심 부품입니다. 분야를 별개로 공부하다 보면 이런 연결이 안 보이는데, &#8220;이 개념이 다른 분야에서는 어떻게 쓰이지?&#8221;라는 질문을 항상 갖고 있는 것만으로 이해의 깊이가 달라집니다</p>



<p><strong>논문 읽기 전에 필요한 수학 기초</strong>로는 선형대수(행렬 곱, 고유값), 확률·통계(베이즈 정리, KL divergence, 가우시안 분포), 미적분(편미분, 체인룰), 정보이론(엔트로피, cross-entropy)이 있습니다. 이걸 미리 다 공부하려 하지 말고, 논문 읽다가 막히는 수식이 나올 때 그 개념만 찾아보는 방식이 훨씬 효율적입니다.</p>



<h2 class="wp-block-heading">각 분야별로 공부해야 할 것들</h2>



<style>
/* 모든 텍스트 크기를 1단계씩 상향 조정 (약 1.25배) */
*{box-sizing:border-box;margin:0;padding:0}
h2.sr-only{position:absolute;width:1px;height:1px;overflow:hidden;clip:rect(0,0,0,0)}
.tabs{display:flex;flex-wrap:wrap;gap:8px;margin-bottom:1.5rem}
.tab{font-size:15px;font-weight:500;padding:6px 16px;border-radius:99px;border:0.5px solid var(--color-border-secondary);background:transparent;color:var(--color-text-secondary);cursor:pointer;transition:all .15s}
.tab.active{background:var(--color-text-primary);color:var(--color-background-primary);border-color:transparent}
.domain{display:none}.domain.active{display:block}
.timeline{position:relative;padding-left:32px}
.timeline::before{content:'';position:absolute;left:10px;top:6px;bottom:6px;width:1.5px;background:var(--color-border-tertiary)}
.item{position:relative;margin-bottom:18px}
.item::before{content:'';position:absolute;left:-27px;top:16px;width:12px;height:12px;border-radius:50%;border:2px solid var(--color-border-secondary);background:var(--color-background-primary)}
.item.key::before{background:var(--dot-color,#378ADD);border-color:var(--dot-color,#378ADD)}
.card{background:var(--color-background-primary);border:0.5px solid var(--color-border-tertiary);border-radius:var(--border-radius-lg);padding:14px 18px;cursor:pointer;transition:border-color .15s}
.card:hover{border-color:var(--color-border-secondary)}
.card.key{border-left:4px solid var(--dot-color,#378ADD)}
.card-top{display:flex;align-items:center;gap:10px;margin-bottom:8px}
.year-badge{font-size:13px;font-weight:500;padding:3px 10px;border-radius:99px;background:var(--color-background-secondary);color:var(--color-text-tertiary);white-space:nowrap}
.model-name{font-size:17px;font-weight:600;color:var(--color-text-primary);flex:1}
.must-badge{font-size:12px;font-weight:500;padding:3px 9px;border-radius:99px;white-space:nowrap}
.desc{font-size:15px;color:var(--color-text-secondary);line-height:1.6}
.key-idea{font-size:13.5px;color:var(--color-text-tertiary);margin-top:7px}
.key-idea b{font-weight:500;color:var(--color-text-secondary)}
.section-label{font-size:13px;font-weight:600;color:var(--color-text-tertiary);letter-spacing:.05em;text-transform:uppercase;margin:1.5rem 0 0.8rem;padding-left:2px}
.ask-btn{margin-top:10px;font-size:13px;padding:6px 14px;border-radius:99px;border:0.5px solid var(--color-border-secondary);background:transparent;color:var(--color-text-secondary);cursor:pointer}
.ask-btn:hover{background:var(--color-background-secondary)}
.tip-box{background:var(--color-background-secondary);border-radius:var(--border-radius-md);padding:14px 18px;margin-top:1.25rem;font-size:15px;color:var(--color-text-secondary);line-height:1.65}
.tip-box b{font-weight:600;color:var(--color-text-primary)}
</style>

<h2 class="sr-only">딥러닝·CV·NLP·음성 분야별 뼈대 모델 공부 순서 로드맵</h2>

<div class="tabs" id="tabs">
  <button class="tab active" data-domain="foundation">딥러닝 기반</button>
  <button class="tab" data-domain="cv">CV</button>
  <button class="tab" data-domain="nlp">NLP</button>
  <button class="tab" data-domain="diffusion">Diffusion</button>
  <button class="tab" data-domain="ocr">OCR</button>
  <button class="tab" data-domain="speech-rec">음성 인식</button>
  <button class="tab" data-domain="speech-gen">음성 생성</button>
</div>

<div id="foundation" class="domain active" style="--dot-color:#378ADD">
  <div class="tip-box"><b>먼저 이걸 잡아야 모든 분야가 열립니다.</b> 아래 개념들은 분야를 불문하고 모든 논문에서 당연한 것으로 전제합니다. 모델보다 개념 순서로 접근하세요.</div>
  <div class="section-label">개념 레이어 1 — 학습 원리</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">1986</span><span class="model-name">역전파 (Backpropagation)</span><span class="must-badge" style="background:#E6F1FB;color:#185FA5">필수</span></div>
        <div class="desc">Rumelhart et al. 모든 딥러닝의 학습 엔진. 체인룰로 gradient를 역방향 전파. 이걸 수식으로 직접 유도해보는 것이 가장 중요한 첫 단계.</div>
        <div class="key-idea"><b>핵심 개념:</b> Chain rule, computational graph, gradient flow</div>
        <button class="ask-btn" onclick="sendPrompt('역전파 알고리즘을 수식과 함께 직관적으로 설명해줘. 체인룰이 왜 필요한지도 포함해서')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2012~</span><span class="model-name">SGD / Adam / 최적화기</span><span class="must-badge" style="background:#E6F1FB;color:#185FA5">필수</span></div>
        <div class="desc">SGD, Momentum, RMSProp, Adam. 단순 경사하강법부터 적응형 학습률까지. Adam이 왜 대부분의 상황에서 기본값인지 이해.</div>
        <div class="key-idea"><b>핵심 개념:</b> Learning rate, momentum, adaptive LR, weight decay</div>
        <button class="ask-btn" onclick="sendPrompt('SGD부터 Adam까지 최적화기 발전 흐름을 각각의 핵심 아이디어 중심으로 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">개념 레이어 2 — 안정화 기법</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2015</span><span class="model-name">Batch Normalization</span><span class="must-badge" style="background:#E6F1FB;color:#185FA5">필수</span></div>
        <div class="desc">Ioffe &#038; Szegedy. 레이어 입력 분포를 정규화해 학습을 안정화. 왜 없으면 깊은 네트워크가 학습이 안 되는지 이해가 핵심.</div>
        <div class="key-idea"><b>핵심 개념:</b> Internal covariate shift, running stats, train vs inference 차이</div>
        <button class="ask-btn" onclick="sendPrompt('Batch Normalization이 왜 필요한지, 내부 covariate shift 개념과 함께 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2015</span><span class="model-name">Residual Connection (ResNet)</span><span class="must-badge" style="background:#E6F1FB;color:#185FA5">필수</span></div>
        <div class="desc">He et al. F(x)+x 형태의 skip connection으로 gradient vanishing 해결. 이게 없으면 100층 이상 학습 불가. 현재 거의 모든 딥러닝 구조의 근간.</div>
        <div class="key-idea"><b>핵심 개념:</b> Gradient highway, identity mapping, depth scalability</div>
        <button class="ask-btn" onclick="sendPrompt('Residual connection이 gradient vanishing 문제를 어떻게 해결하는지 수식과 함께 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2017</span><span class="model-name">Attention / Transformer</span><span class="must-badge" style="background:#E6F1FB;color:#185FA5">필수</span></div>
        <div class="desc">Vaswani et al. &#8220;Attention is All You Need&#8221;. Query-Key-Value attention 메커니즘. NLP뿐 아니라 이후 CV, 음성, 이미지생성 모두의 기반. 논문 전체를 수식까지 이해하는 것을 목표로.</div>
        <div class="key-idea"><b>핵심 개념:</b> Scaled dot-product attention, multi-head, positional encoding</div>
        <button class="ask-btn" onclick="sendPrompt('Transformer의 Scaled Dot-Product Attention을 수식부터 직관까지 완전히 설명해줘. Multi-head가 왜 필요한지도.')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="tip-box" style="margin-top:1rem"><b>공부 순서 원칙:</b> 역전파 → 최적화기 → BatchNorm/Dropout → ResNet → Attention. 이 순서가 무너지면 이후 모든 논문이 맥락 없이 읽힙니다. 각 개념마다 PyTorch로 미니 구현을 해보세요.</div>
</div>

<div id="cv" class="domain" style="--dot-color:#1D9E75">
  <div class="tip-box"><b>CV 공부 순서:</b> 분류 → 검출 → 분할 → Transformer 순으로. 각 단계가 이전 단계의 아이디어를 확장합니다.</div>
  <div class="section-label">1단계 — CNN 분류 기초</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2012</span><span class="model-name">AlexNet</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">Krizhevsky et al. ImageNet을 처음 정복한 딥 CNN. ReLU, Dropout, GPU 학습을 도입. &#8220;딥러닝 르네상스&#8221;의 시작점.</div>
        <div class="key-idea"><b>핵심 개념:</b> ReLU 활성화, Dropout, GPU 병렬 학습, Data augmentation</div>
        <button class="ask-btn" onclick="sendPrompt('AlexNet이 이전 방법들과 무엇이 달랐는지, 각 혁신 요소를 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2015</span><span class="model-name">ResNet</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">He et al. Residual block으로 152층까지 안정 학습. 현재까지도 CV 백본의 표준. ResNet-50/101은 수백 개 논문의 baseline.</div>
        <div class="key-idea"><b>핵심 개념:</b> Residual block, bottleneck, depth vs width tradeoff</div>
        <button class="ask-btn" onclick="sendPrompt('ResNet의 residual block 구조와 bottleneck 설계 이유를 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item">
      <div class="card">
        <div class="card-top"><span class="year-badge">2019</span><span class="model-name">EfficientNet</span></div>
        <div class="desc">Tan &#038; Le. 깊이·너비·해상도를 동시에 스케일하는 compound scaling. 같은 연산량에서 최고 정확도.</div>
        <div class="key-idea"><b>핵심 개념:</b> Compound scaling, NAS, MobileNet 계열</div>
        <button class="ask-btn" onclick="sendPrompt('EfficientNet의 compound scaling이 왜 기존 단순 스케일링보다 효율적인지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">2단계 — 객체 검출</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2015</span><span class="model-name">Faster R-CNN</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">Ren et al. Region Proposal Network(RPN)으로 detection을 완전 end-to-end화. Two-stage detection의 표준 구조.</div>
        <div class="key-idea"><b>핵심 개념:</b> RPN, anchor box, RoI Pooling, two-stage pipeline</div>
        <button class="ask-btn" onclick="sendPrompt('Faster R-CNN의 RPN이 어떻게 작동하는지, anchor box 개념과 함께 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2016</span><span class="model-name">YOLO (v1~)</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">Redmon et al. 이미지를 한 번에 처리하는 one-stage detection. 속도와 정확도의 트레이드오프를 이해하는 핵심 모델.</div>
        <div class="key-idea"><b>핵심 개념:</b> Grid cell, confidence score, one-stage vs two-stage</div>
        <button class="ask-btn" onclick="sendPrompt('YOLO v1의 grid cell 방식이 Faster R-CNN과 어떻게 다르고, 속도에서 왜 유리한지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item">
      <div class="card">
        <div class="card-top"><span class="year-badge">2017</span><span class="model-name">FPN (Feature Pyramid Network)</span></div>
        <div class="desc">Lin et al. 다중 스케일 feature map을 계층적으로 결합. 작은 객체 검출 성능을 크게 향상. 거의 모든 최신 detector의 neck 구조.</div>
        <div class="key-idea"><b>핵심 개념:</b> Top-down pathway, lateral connection, multi-scale feature</div>
        <button class="ask-btn" onclick="sendPrompt('FPN이 다중 스케일 객체를 어떻게 처리하는지, top-down pathway 구조를 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">3단계 — Vision Transformer</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2020</span><span class="model-name">ViT (Vision Transformer)</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">Dosovitskiy et al. 이미지를 패치로 나눠 Transformer에 입력. &#8220;CNN 없이도 된다&#8221;는 것을 증명. 이후 CV Transformer의 원조.</div>
        <div class="key-idea"><b>핵심 개념:</b> Patch embedding, positional encoding, class token</div>
        <button class="ask-btn" onclick="sendPrompt('ViT가 이미지를 어떻게 패치로 처리하는지, CNN과의 귀납적 편향 차이를 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item">
      <div class="card">
        <div class="card-top"><span class="year-badge">2021</span><span class="model-name">Swin Transformer</span></div>
        <div class="desc">Liu et al. 계층적 구조 + shifted window attention으로 ViT의 고해상도 한계를 극복. 현재 CV Transformer 백본 표준.</div>
        <div class="key-idea"><b>핵심 개념:</b> Shifted window, hierarchical feature, linear complexity</div>
        <button class="ask-btn" onclick="sendPrompt('Swin Transformer의 shifted window attention이 ViT의 어떤 한계를 어떻게 해결했는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
</div>

<div id="nlp" class="domain" style="--dot-color:#7F77DD">
  <div class="tip-box"><b>NLP 공부 순서:</b> RNN의 한계 이해 → Attention 등장 배경 → Transformer → Pre-training 패러다임으로. 이 흐름이 &#8220;왜&#8221;를 설명합니다.</div>
  <div class="section-label">1단계 — 시퀀스 모델의 기원</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2014</span><span class="model-name">Seq2Seq + LSTM</span><span class="must-badge" style="background:#EEEDFE;color:#534AB7">뼈대</span></div>
        <div class="desc">Sutskever et al. 인코더-디코더 구조로 기계번역. LSTM이 왜 vanilla RNN보다 장기 의존성을 잘 처리하는지가 핵심.</div>
        <div class="key-idea"><b>핵심 개념:</b> LSTM gate (input/forget/output), hidden state, teacher forcing</div>
        <button class="ask-btn" onclick="sendPrompt('LSTM의 3가지 게이트가 각각 어떤 역할을 하는지, vanishing gradient와의 관계를 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2015</span><span class="model-name">Attention (Bahdanau)</span><span class="must-badge" style="background:#EEEDFE;color:#534AB7">뼈대</span></div>
        <div class="desc">Bahdanau et al. RNN의 bottleneck(context vector)을 깨는 attention. Transformer attention의 직접적 전신. 이 논문을 이해해야 Transformer가 왜 나왔는지 보인다.</div>
        <div class="key-idea"><b>핵심 개념:</b> Alignment score, soft attention, context vector per step</div>
        <button class="ask-btn" onclick="sendPrompt('Bahdanau attention이 seq2seq의 fixed context vector 문제를 어떻게 해결했는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">2단계 — Transformer 시대</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2017</span><span class="model-name">Transformer</span><span class="must-badge" style="background:#EEEDFE;color:#534AB7">필수</span></div>
        <div class="desc">Vaswani et al. &#8220;Attention is All You Need&#8221;. 이 논문 하나가 NLP, CV, 음성, 이미지생성을 전부 바꿨다. 수식 하나하나를 직접 구현해보는 게 목표.</div>
        <div class="key-idea"><b>핵심 개념:</b> Multi-head attention, FFN, positional encoding, encoder-decoder</div>
        <button class="ask-btn" onclick="sendPrompt('Transformer 논문 Attention is All You Need의 핵심 구조를 encoder, decoder, attention 순서로 완전히 분석해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2018</span><span class="model-name">BERT</span><span class="must-badge" style="background:#EEEDFE;color:#534AB7">뼈대</span></div>
        <div class="desc">Devlin et al. (Google). Masked Language Model로 대규모 사전학습 후 fine-tuning. &#8220;Pre-train → Fine-tune&#8221; 패러다임의 정립.</div>
        <div class="key-idea"><b>핵심 개념:</b> MLM, NSP, bidirectional context, fine-tuning</div>
        <button class="ask-btn" onclick="sendPrompt('BERT의 Masked LM이 GPT의 causal LM과 어떻게 다르고, 각각 어떤 태스크에 유리한지 비교해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2018~</span><span class="model-name">GPT 시리즈</span><span class="must-badge" style="background:#EEEDFE;color:#534AB7">뼈대</span></div>
        <div class="desc">Radford et al. (OpenAI). Decoder-only, causal language modeling. GPT-1→2→3→4로 스케일이 곧 성능임을 증명. 현재 LLM의 주류 구조.</div>
        <div class="key-idea"><b>핵심 개념:</b> Causal masking, in-context learning, scaling law</div>
        <button class="ask-btn" onclick="sendPrompt('GPT 시리즈가 GPT-1부터 GPT-3까지 어떻게 발전했는지, scaling law 관점에서 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item">
      <div class="card">
        <div class="card-top"><span class="year-badge">2022</span><span class="model-name">InstructGPT / RLHF</span></div>
        <div class="desc">Ouyang et al. Reinforcement Learning from Human Feedback. 언어모델을 인간 의도에 align. ChatGPT의 직접 전신.</div>
        <div class="key-idea"><b>핵심 개념:</b> SFT, reward model, PPO, alignment</div>
        <button class="ask-btn" onclick="sendPrompt('RLHF가 무엇인지, SFT → Reward Model → PPO 세 단계를 순서대로 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
</div>

<div id="diffusion" class="domain" style="--dot-color:#D85A30">
  <div class="tip-box"><b>Diffusion 공부 순서:</b> VAE로 latent space 개념 → GAN으로 생성 학습 이해 → DDPM으로 diffusion 원리 → Stable Diffusion으로 실용화 흐름.</div>
  <div class="section-label">1단계 — 생성 모델 기초</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2013</span><span class="model-name">VAE (Variational Autoencoder)</span><span class="must-badge" style="background:#FAECE7;color:#993C1D">뼈대</span></div>
        <div class="desc">Kingma &#038; Welling. Encoder가 latent distribution을 출력하고 sampling으로 생성. ELBO, reparameterization trick이 핵심. Latent diffusion의 latent space 개념의 직접 전신.</div>
        <div class="key-idea"><b>핵심 개념:</b> ELBO, KL divergence, reparameterization trick, latent space</div>
        <button class="ask-btn" onclick="sendPrompt('VAE의 ELBO와 reparameterization trick을 수식과 함께 직관적으로 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2014</span><span class="model-name">GAN</span><span class="must-badge" style="background:#FAECE7;color:#993C1D">뼈대</span></div>
        <div class="desc">Goodfellow et al. Generator vs Discriminator의 minimax 게임. 이미지 생성 패러다임을 열었고, diffusion 이전까지 SOTA. 학습 불안정성이 왜 생기는지 이해 필수.</div>
        <div class="key-idea"><b>핵심 개념:</b> Minimax game, mode collapse, Wasserstein distance (WGAN)</div>
        <button class="ask-btn" onclick="sendPrompt('GAN의 학습 불안정성과 mode collapse 문제가 왜 생기는지, WGAN이 어떻게 해결했는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">2단계 — Diffusion 본류</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2020</span><span class="model-name">DDPM</span><span class="must-badge" style="background:#FAECE7;color:#993C1D">필수</span></div>
        <div class="desc">Ho et al. Forward(노이즈 추가) → Reverse(노이즈 제거) 과정으로 이미지 생성. Diffusion의 수학적 기반. 이 논문의 수식을 이해하는 것이 이 분야 진입의 관문.</div>
        <div class="key-idea"><b>핵심 개념:</b> Forward/reverse process, noise schedule, ELBO 유도, epsilon prediction</div>
        <button class="ask-btn" onclick="sendPrompt('DDPM의 forward process와 reverse process를 수식과 함께 설명해줘. noise schedule이 왜 중요한지도.')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2021</span><span class="model-name">CLIP</span><span class="must-badge" style="background:#FAECE7;color:#993C1D">뼈대</span></div>
        <div class="desc">Radford et al. (OpenAI). 이미지-텍스트 쌍을 contrastive learning으로 학습. &#8220;텍스트로 이미지 검색/생성&#8221;의 기반. Stable Diffusion의 text encoder가 CLIP.</div>
        <div class="key-idea"><b>핵심 개념:</b> Contrastive learning, zero-shot transfer, image-text alignment</div>
        <button class="ask-btn" onclick="sendPrompt('CLIP이 contrastive learning으로 이미지-텍스트를 어떻게 정렬하는지, zero-shot 가능 이유와 함께 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2022</span><span class="model-name">Stable Diffusion (LDM)</span><span class="must-badge" style="background:#FAECE7;color:#993C1D">뼈대</span></div>
        <div class="desc">Rombach et al. VAE의 latent space에서 diffusion을 수행해 연산량을 획기적으로 절감. CLIP text encoder + U-Net denoiser + VAE 구조. 현재 이미지 생성 표준.</div>
        <div class="key-idea"><b>핵심 개념:</b> Latent diffusion, cross-attention for text conditioning, CFG</div>
        <button class="ask-btn" onclick="sendPrompt('Stable Diffusion(LDM)이 픽셀 공간 대신 latent 공간에서 diffusion을 하는 이유와 전체 구조를 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item">
      <div class="card">
        <div class="card-top"><span class="year-badge">2023</span><span class="model-name">DiT (Diffusion Transformer)</span></div>
        <div class="desc">Peebles &#038; Xie. U-Net 대신 Transformer를 denoiser로 사용. 스케일 법칙이 잘 적용됨. Sora 등 최신 video generation의 기반.</div>
        <div class="key-idea"><b>핵심 개념:</b> Patch-based latent, adaLN conditioning, scalable diffusion</div>
        <button class="ask-btn" onclick="sendPrompt('DiT가 기존 U-Net 기반 diffusion 대비 Transformer를 사용하는 장점과 구조를 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
</div>

<div id="ocr" class="domain" style="--dot-color:#BA7517">
  <div class="tip-box"><b>OCR 공부 순서:</b> CNN으로 feature 추출 → RNN/CTC로 시퀀스 인식 → Attention 기반 → Transformer 통합. OCR은 CV + NLP의 교차점입니다.</div>
  <div class="section-label">1단계 — 시퀀스 인식 기초</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2015</span><span class="model-name">CRNN + CTC</span><span class="must-badge" style="background:#FAEEDA;color:#854F0B">뼈대</span></div>
        <div class="desc">Shi et al. CNN(특징 추출) + RNN(시퀀스 모델링) + CTC(정렬 없는 학습). 문자 위치 어노테이션 없이 end-to-end 학습. OCR의 사실상 첫 딥러닝 표준.</div>
        <div class="key-idea"><b>핵심 개념:</b> CTC loss, blank token, 문자 정렬 문제, feature map to sequence</div>
        <button class="ask-btn" onclick="sendPrompt('CRNN의 CTC loss가 문자 위치 어노테이션 없이 어떻게 학습하는지 설명해줘. blank token 역할도 포함해서.')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">2단계 — Attention 기반</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2016</span><span class="model-name">Attention OCR</span><span class="must-badge" style="background:#FAEEDA;color:#854F0B">뼈대</span></div>
        <div class="desc">Baek et al. 계열. Attention으로 어느 위치를 볼지 학습. CTC 대비 불규칙 레이아웃, 곡선 텍스트에 강함. STN(공간 변환 네트워크)과 조합되는 경우 많음.</div>
        <div class="key-idea"><b>핵심 개념:</b> Spatial attention, STN, irregular text recognition</div>
        <button class="ask-btn" onclick="sendPrompt('Attention 기반 OCR이 CTC 기반과 어떻게 다르고, 어떤 경우에 더 유리한지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item">
      <div class="card">
        <div class="card-top"><span class="year-badge">2019</span><span class="model-name">CRAFT (텍스트 검출)</span></div>
        <div class="desc">Baek et al. 문자 단위 affinity로 텍스트 영역 검출. 곡선, 다방향 텍스트 검출에 강함. OCR 파이프라인의 검출(detection) 단계.</div>
        <div class="key-idea"><b>핵심 개념:</b> Character region score, affinity map, weakly supervised</div>
        <button class="ask-btn" onclick="sendPrompt('CRAFT의 character region score와 affinity map이 텍스트 검출에서 어떻게 작동하는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">3단계 — Transformer 통합</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2021</span><span class="model-name">TrOCR</span><span class="must-badge" style="background:#FAEEDA;color:#854F0B">현대 표준</span></div>
        <div class="desc">Li et al. (Microsoft). ViT encoder + BART decoder. 사전학습된 Transformer를 OCR에 적용. 현재 문서 OCR 최고 성능 수준. Handwriting에도 강함.</div>
        <div class="key-idea"><b>핵심 개념:</b> Pre-trained ViT encoder, autoregressive decoding, transfer learning for OCR</div>
        <button class="ask-btn" onclick="sendPrompt('TrOCR이 ViT encoder와 BART decoder를 어떻게 조합해서 OCR을 수행하는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
</div>

<div id="speech-rec" class="domain" style="--dot-color:#1D9E75">
  <div class="tip-box"><b>음성 인식 공부 순서:</b> 음성 신호 기초(MFCC) → HMM-GMM 이해(딥러닝 왜 필요한지) → CTC 기반 → Attention → Whisper.</div>
  <div class="section-label">1단계 — 신호 처리 기초</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">기초</span><span class="model-name">MFCC / Spectrogram</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">필수 개념</span></div>
        <div class="desc">모델이 아니지만 반드시 먼저 이해해야 하는 전처리. 음성 파형을 어떻게 주파수 표현으로 바꾸는지. 현재 mel spectrogram이 사실상 표준 입력 형식.</div>
        <div class="key-idea"><b>핵심 개념:</b> FFT, mel filterbank, MFCC, log mel spectrogram</div>
        <button class="ask-btn" onclick="sendPrompt('음성 인식에서 MFCC와 mel spectrogram이 무엇인지, 왜 raw waveform 대신 사용하는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">2단계 — 딥러닝 ASR</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2014</span><span class="model-name">DeepSpeech (Baidu)</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">Hannun et al. End-to-end 음성 인식의 선구자. RNN + CTC로 음소-문자 정렬 없이 학습. HMM 없이 딥러닝만으로 ASR 가능성을 증명.</div>
        <div class="key-idea"><b>핵심 개념:</b> End-to-end ASR, CTC loss, bidirectional RNN</div>
        <button class="ask-btn" onclick="sendPrompt('DeepSpeech가 기존 HMM-GMM 방식 대비 어떤 점이 혁신적이었는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2015</span><span class="model-name">Listen, Attend and Spell (LAS)</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">Chan et al. Attention 기반 seq2seq ASR. 입력 음성의 어느 부분을 볼지 attention으로 결정. CTC의 조건부 독립 가정을 깸.</div>
        <div class="key-idea"><b>핵심 개념:</b> Listener encoder, speller decoder, content-based attention</div>
        <button class="ask-btn" onclick="sendPrompt('LAS의 Listen-Attend-Spell 구조가 DeepSpeech의 CTC 방식과 어떻게 다른지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2020</span><span class="model-name">wav2vec 2.0</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">뼈대</span></div>
        <div class="desc">Baevski et al. (Meta). 음성 자기지도학습(self-supervised). 대량의 레이블 없는 음성으로 사전학습 후 소량 레이블로 fine-tuning. ASR의 BERT.</div>
        <div class="key-idea"><b>핵심 개념:</b> Contrastive loss, quantized speech representations, self-supervised pretraining</div>
        <button class="ask-btn" onclick="sendPrompt('wav2vec 2.0의 self-supervised 학습 방식이 음성 인식에서 왜 중요한지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2022</span><span class="model-name">Whisper</span><span class="must-badge" style="background:#E1F5EE;color:#0F6E56">현재 표준</span></div>
        <div class="desc">Radford et al. (OpenAI). 68만 시간 웹 데이터 대규모 학습. Encoder-decoder Transformer. 99개 언어 다국어, 번역 동시 지원. 현재 가장 널리 쓰이는 ASR.</div>
        <div class="key-idea"><b>핵심 개념:</b> Multitask training, log-mel input, timestamp prediction</div>
        <button class="ask-btn" onclick="sendPrompt('Whisper의 multitask training 방식과 대규모 weakly supervised 학습이 왜 효과적인지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
</div>

<div id="speech-gen" class="domain" style="--dot-color:#D4537E">
  <div class="tip-box"><b>음성 생성 공부 순서:</b> Autoregressive(WaveNet) → non-autoregressive(FastSpeech) → Diffusion 기반(DiffWave) → 최신 대형 모델(VALL-E). 속도와 품질의 트레이드오프가 발전의 축입니다.</div>
  <div class="section-label">1단계 — Autoregressive TTS</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2016</span><span class="model-name">WaveNet</span><span class="must-badge" style="background:#FBEAF0;color:#993556">뼈대</span></div>
        <div class="desc">van den Oord et al. (DeepMind). Dilated causal convolution으로 고품질 음성 파형 생성. 처음으로 사람 수준 TTS 달성. 느리지만 품질의 기준을 세움.</div>
        <div class="key-idea"><b>핵심 개념:</b> Dilated causal conv, autoregressive waveform, μ-law encoding</div>
        <button class="ask-btn" onclick="sendPrompt('WaveNet의 dilated causal convolution이 음성 파형 생성에서 왜 효과적인지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2018</span><span class="model-name">Tacotron 2</span><span class="must-badge" style="background:#FBEAF0;color:#993556">뼈대</span></div>
        <div class="desc">Wang et al. (Google). 텍스트 → mel spectrogram (seq2seq) + WaveNet vocoder 구조. 자연스러운 억양·리듬 학습. 현대 TTS 2단계 파이프라인의 표준.</div>
        <div class="key-idea"><b>핵심 개념:</b> Location-sensitive attention, stop token, mel 2단계 구조</div>
        <button class="ask-btn" onclick="sendPrompt('Tacotron 2의 텍스트→mel→waveform 2단계 구조와 location-sensitive attention을 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">2단계 — Non-autoregressive / 빠른 생성</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2020</span><span class="model-name">FastSpeech 2</span><span class="must-badge" style="background:#FBEAF0;color:#993556">뼈대</span></div>
        <div class="desc">Ren et al. (Microsoft). 병렬 생성으로 Tacotron 대비 수십 배 빠름. Duration, pitch, energy predictor로 운율 명시적 제어. 실용적 TTS의 기준.</div>
        <div class="key-idea"><b>핵심 개념:</b> Non-autoregressive, duration predictor, pitch/energy control</div>
        <button class="ask-btn" onclick="sendPrompt('FastSpeech 2가 non-autoregressive 방식으로 어떻게 속도를 높이면서 품질을 유지하는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
    <div class="item">
      <div class="card">
        <div class="card-top"><span class="year-badge">2021</span><span class="model-name">VITS</span></div>
        <div class="desc">Kim et al. Variational Inference + GAN + flow 결합. 텍스트 → waveform 1단계 end-to-end. 고품질 + 실시간 속도 달성.</div>
        <div class="key-idea"><b>핵심 개념:</b> Normalizing flow, GAN discriminator, end-to-end TTS</div>
        <button class="ask-btn" onclick="sendPrompt('VITS가 기존 2단계 TTS 파이프라인을 어떻게 1단계로 통합했는지 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
  <div class="section-label">3단계 — 대형 모델 / 음성 복제</div>
  <div class="timeline">
    <div class="item key">
      <div class="card key">
        <div class="card-top"><span class="year-badge">2023</span><span class="model-name">VALL-E</span><span class="must-badge" style="background:#FBEAF0;color:#993556">최신 패러다임</span></div>
        <div class="desc">Wang et al. (Microsoft). 3초 음성 샘플만으로 화자 음성 복제. 언어모델처럼 audio codec token을 예측. 음성 생성의 GPT-3 모멘트.</div>
        <div class="key-idea"><b>핵심 개념:</b> Neural audio codec, in-context learning for speech, zero-shot voice cloning</div>
        <button class="ask-btn" onclick="sendPrompt('VALL-E가 3초 음성으로 zero-shot voice cloning을 어떻게 달성하는지, audio codec token 방식을 설명해줘')">자세히 물어보기 <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/2197.png" alt="↗" class="wp-smiley" style="height: 1em; max-height: 1em;" /></button>
      </div>
    </div>
  </div>
</div>

<script>
// 탭 전환 로직
document.getElementById('tabs').addEventListener('click',function(e){
  const btn=e.target.closest('.tab');
  if(!btn)return;
  document.querySelectorAll('.tab').forEach(t=>t.classList.remove('active'));
  document.querySelectorAll('.domain').forEach(d=>d.classList.remove('active'));
  btn.classList.add('active');
  document.getElementById(btn.dataset.domain).classList.add('active');
});

// sendPrompt 함수: 문자열을 클립보드에 저장
function sendPrompt(text) {
  navigator.clipboard.writeText(text).then(() => {
    alert("프롬프트가 클립보드에 복사되었습니다.");
  }).catch(err => {
    console.error('클립보드 복사 실패:', err);
  });
}
</script>



<p></p>
]]></content:encoded>
					
					<wfw:commentRss>https://blog.kggstudio.com/ai-paper/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">500</post-id>	</item>
	</channel>
</rss>
