HuggingFace 커스텀 프로젝트 만들기 [프로젝트]

프로젝트 설명 개요: 허깅페이스에서 직접 모델을 다운받아 Fine-Tuning을 시키고, 그동안 배운 테크닉들을 활용하여 모델 성능 (accuracy)를 올린다. 주제는 자유주제로 말씀해주셨지만 2.5일 짧은 프로젝트 기간을 감안해 단순하고 방금전에 배워서 시작하기 쉬운 “언어만 한국어로 바뀐 두문장 관계” 분석을하는 모델로 fine-tuning 해볼생각이다. (두문장 관계 평가란 두 문장이 같은의미를 지닌 문장인지 평가하는것을 말한다.) 모델학습을 통해 성능을 올리는것이 목표지만, 더 … 더 읽기

Transformer (0) 강의 메모

트랜스포머는 왜 좋은가? Self-Attention Layer Feed Forward Neural Network 모델의 비선형성 추가 Input Embedding Positional Encoding Self-Attention Q, K, V Value 벡터가 softmax 결과값과 곱해져서 Attention 벡터가됨 원래 임베딩 테이블에는 “tower”라는 단어 하나에 벡터 하나만 있어. 이건 “타워”의 평균적인 의미라서, 건축물인지 중장비인지 구분되지 않아. Self-Attention을 거치면 같은 “tower”라도 주변 단어에 따라 다른 벡터가 돼. Self … 더 읽기

Transformer (2)

이 글은 Stanford CME295 Transformers & LLMs 클래스 유튜브영상을 보고 요약한 내용입니다. Transformer의 등장 배경, 특징등이 궁금하다면 이전 글을 참조해주세요. 1. 강의 소개 강의 목표 강의 대상 Textbook Super Study Guide 강의 링크 https://cme295.stanford.edu 치트 시트 출처: https://github.com/afshinea/stanford-cme-295-transformers-large-language-models 2. NLP tasks overview (자연어 처리 3가지 작업) Classification (분류) “Multi”-classification (다중분류) Generation (생성) Sentiment extraction (감정 … 더 읽기

Transformer (1)

트랜스포머 학습용 플래시카드 20장. 등장 배경부터 핵심 메커니즘, 응용까지 단계별 카드. 카드를 클릭하면 답이 보이고, 난이도 평가로 진도를 추적할 수 있습니다. 🤖 트랜스포머 마스터 카드 (20장) 카드를 클릭해 답을 확인하세요. 답을 본 후 “쉬움/보통/어려움”으로 평가하면 진도가 기록돼요. 1단계 · 등장 배경 카드 1-5 2단계 · 핵심 개념 카드 6-14 3단계 · 구조와 응용 카드 15-20 … 더 읽기

NLP (1) – seq2seq

seq2seq 이 수식을 기억하시나요? p(y1,…,yT′∣x1,…,xT)=Πt=1T′p(yt∣v,y1,…,yt−1)p(y1​,…,yT′​∣x1​,…,xT​)=Πt=1T′​p(yt​∣v,y1​,…,yt−1​) Encoder가 생성한 컨텍스트 벡터 v 를 Embedding 레이어를 거친 y 값에 Concatnate하여 위 수식을 비로소 만족하게 됩니다. 우리가 Seq2seq를 완성한 거죠! LSTM Encoder Embedding 레이어를 단어 사이즈와 Embedding 차원에 대해 선언을 한 후, 논문에서 소개한 대로 torch.nn.LSTM(enc_units)으로 LSTM을 정의합니다. Pytorch 속 LSTM 모듈의 기본 반환 값은 최종 State 값이므로 return_sequences … 더 읽기

Claude code 토큰 절약하는 10가지 방법

🔥 AI 토큰 소모를 60% 이상 절약하는 무료 방법 10가지를 모았습니다 Claude Code를 본격적으로 쓰기 시작하면 진짜 병목은 토큰 리밋입니다.세션 한 번에 리밋이 절반 이상 차는 경험도 부지기수입니다. 대부분의 Github repo 를 직접 살펴봤습니다.하지만 주목할만한 건 아래 10가지 방법뿐이었어요:이 방법만으로도 같은 작업에서 AI 지출을 확 줄일 수 있습니다: • RTK – 터미널 출력을 컨텍스트에 넣기 … 더 읽기

AI Paper 읽기

일기 오늘은 일기로 글을 쓰기 시작 하겠다. 나는 C언어를 처음 배운게 2004년, 컴퓨터공학을 공부하고 게임개발 위해 투자한 시간만 2만시간이 넘는다. 비록 게임개발자로 일한것은 1년밖에 되지 않지만, 다른일 을 하면서도 중간 중간 코딩하는것을 잊은적이 없다. 코딩 실력을 유지하기위해서? 아니다 코딩자체가 재밌고, 무언가 만들었을때 사람들이 좋아해주면 그것으로 뿌듯하고 기분이 좋은일이라 계속 했던것 같다. 본격 AI시대에 들어서면서 머신러닝 … 더 읽기

CV (5) – Segmentation

Segmentation에는 두 종류가 있다 Class Segmentation Semantic Segmentation 주요 모델 요약 및 Instance Segmentation 추천 모델 Semantic Seg. FCN (Fully Convolutional Network) 2015 · Long et al. (UC Berkeley) Conv Layers Pooling ×5 FC→Conv 1×1 conv Bilinear Upsample ×32 Segmentation 픽셀 단위 분류를 위해 FC layer를 1×1 conv로 대체한 최초의 end-to-end segmentation 네트워크. 스킵 연결(FCN-8s/16s/32s)로 … 더 읽기

CV (3) – Grad-CAM

Gradient-weighted Class Activation Mapping (Grad-CAM)이란 설명 가능한 인공지능 (eXplainable Artifical Intelligence, XAI) 기술중 하나로, 딥러닝 내부 동작 원리를 시각화 하는 방법. CAM vs Grad-CAM 장단점 비교 구분 CAM (Class Activation Map) Grad-CAM (Gradient-weighted CAM) 구조 제약 매우 높음. (반드시 GAP 구조여야 함) 없음. (모든 CNN 기반 모델 가능) 재학습 여부 구조 변경 시 재학습 필요 … 더 읽기

CV (2) – ArexNet, VGG, ResNet

CV에서 사용되는 모델들 CV는 컴퓨터 비전의 약자로 컴퓨터(인공지능)에 눈에 해당하는 기술이라고 보면됩니다. CG는 컴퓨터 그래픽으로 사람들이 정보를 다넣어준걸 컴퓨터를통해 가공하고 보여주는 기술이었다면. CV는 딥러닝을통해 인공지능이 사물을 구분하게하거나 심지어 요즘에는 생성형 AI기술을통해 이렇게 학습한것을 토대로 새로운 이미지를 만들어내기까지합니다. 2023년부터 2026년 현재까지 매우 급속도로 발전하고있습니다. 아래 영상은 윌스미스가 스파게티 먹는 영상을 생성형AI로 만든것인데 2년만에 엄청난 발전을 한것을 … 더 읽기