CV (5) – Segmentation

Segmentation에는 두 종류가 있다

Semantic Segmentation: 이미지에서, 사람, 자전거, 동물 등 class 분류 만 하는것.
Instance Segmentation: 이미지에서 사람, 자전거, 동물을 분류하는것 뿐만아니라, 사람마다, 자전거마다, 동물마다 서로 다른 Instance인지 아닌지를 구분하는것

Table of Contents

Class Segmentation

Semantic Seg.

FCN (Fully Convolutional Network)

2015 · Long et al. (UC Berkeley)

픽셀 단위 분류를 위해 FC layer를 1×1 conv로 대체한 최초의 end-to-end segmentation 네트워크. 스킵 연결(FCN-8s/16s/32s)로 coarse feature를 보완했으나 업샘플링이 단순해 경계 품질이 낮음.

핵심 아이디어

FC layer 제거 → 임의 해상도 입력 가능

업샘플링

Bilinear upsample (×32/16/8)

백본

VGG-16 (기본)

주요 한계

경계 불선명, 공간 정보 손실

장점End-to-end 학습 가능, 구조 단순

단점경계선 품질 낮음, 해상도 복원 부정확

Semantic Seg.

SegNet

2017 · Badrinarayanan et al. (Cambridge)

인코더-디코더 대칭 구조. Max pooling 시 위치 인덱스(pooling indices)를 저장해 디코더에서 정확한 위치로 업샘플링. 추가 파라미터 없이 skip connection 효과를 냄.

핵심 아이디어

Pooling indices 저장 → 정밀 업샘플링

구조

대칭 인코더-디코더 (VGG 기반)

메모리

U-Net 대비 낮음 (feature 전달 X)

적합 분야

도로 장면, 실시간에 가까운 용도

장점메모리 효율, 경계 복원 개선

단점U-Net 대비 세밀한 정보 손실 가능

Semantic Seg.

U-Net

2015 · Ronneberger et al. (U Freiburg)

의료 영상용으로 개발된 인코더-디코더 구조. 인코더의 feature map을 디코더에 직접 연결(concatenation)하는 skip connection으로 공간 정보와 의미 정보를 동시에 보존. 소량 데이터에서도 강력한 성능.

핵심 아이디어

Feature map concat skip connection

강점

소량 데이터, 의료/위성 영상

변형

U-Net++, Attention U-Net, TransUNet

메모리

SegNet 대비 높음 (feature 전달)

장점경계 정밀, 소량 학습 데이터 OK, 확장 용이

단점메모리 사용량 높음

Semantic Seg.

DeepLab (v1→v2→v3→v3+)

2015–2018 · Chen et al. (Google)

Atrous(Dilated) Convolution으로 receptive field를 넓히면서 해상도를 유지하는 것이 핵심. ASPP(Atrous Spatial Pyramid Pooling)로 다양한 스케일의 문맥 정보를 동시에 포착. v3+에서 인코더-디코더 구조와 결합해 경계 정밀도 향상.

핵심 기술

Dilated Conv + ASPP 멀티스케일

버전별 발전

v1(CRF) → v2(ASPP) → v3(개선ASPP) → v3+(디코더)

백본

ResNet-101, Xception

강점

멀티스케일 의미 이해, 높은 mIoU

장점SOTA급 의미론 이해, 다양한 스케일 처리

단점연산량 큼, 실시간 어려움

모델 한눈에 비교

모델	업샘플링 방식	멀티스케일	속도	주요 강점
FCN	Bilinear (×32)	Skip (낮음)	빠름	단순함, 선구자
SegNet	MaxUnpool (indices)	없음	빠름	메모리 효율
U-Net	Transposed Conv	Skip concat	중간	소량 데이터, 경계 정밀
DeepLab v3+	Dilated + Decoder	ASPP (강함)	느림	최고 수준 의미 이해

Instance Segmentation

Instance Segmentation — 현재 많이 쓰는 모델

Instance Seg.

Mask R-CNN

2017 · He et al. (Meta AI / FAIR)

Faster R-CNN + Mask Branch를 추가한 two-stage 모델. RoIAlign으로 경계 정합 문제를 해결. Detectron2 등 많은 프레임워크의 기반. 정확도 높고 생태계 성숙.

구조

Two-stage (RPN → RoIAlign → Mask head)

추천 용도

연구 베이스라인, 정밀도 우선 프로젝트

Instance Seg.

YOLOv8-seg / YOLO11-seg

2023–2024 · Ultralytics

One-stage 실시간 instance segmentation. 산업 현장, 엣지 디바이스, 빠른 프로토타이핑에 가장 많이 선택됨. API가 직관적이고 export(ONNX, TensorRT 등)가 쉬워 배포 친화적.

구조

One-stage, prototype mask 기반

추천 용도

실시간, 엣지 디바이스, 빠른 배포

Instance Seg.

SAM / SAM 2

2023–2024 · Meta AI

Segment Anything Model. 점·박스·텍스트 프롬프트로 임의 객체를 분할. 추가 학습 없이 zero-shot 적용 가능. SAM 2는 비디오 확장. 레이블 없는 환경이나 범용 파이프라인에 강함.

구조

Vision Transformer + Prompt Encoder

추천 용도

Zero-shot, 범용 도구, 데이터 레이블링

Instance Seg.

Mask2Former / OneFormer

2022 · Meta AI / SHI Labs

Transformer 기반 통합 segmentation. Panoptic, Instance, Semantic을 단일 모델로 처리. COCO 등 벤치마크 최상위권. OneFormer는 단일 모델로 세 태스크를 동시 지원.

구조

Masked Attention Transformer

추천 용도

연구/정밀 분석, 다중 태스크

선택 가이드
실시간·엣지 → YOLOv8/11-seg · 정확도·연구 → Mask R-CNN / Mask2Former · 레이블 없는 범용 → SAM 2 · 세 가지 seg 통합 → OneFormer

Class Segmentation

Semantic Segmentation 주요 모델 요약 및 Instance Segmentation 추천 모델

모델 한눈에 비교

Instance Segmentation

Instance Segmentation — 현재 많이 쓰는 모델

댓글 남기기 응답 취소