CV (5) – Segmentation

Segmentation에는 두 종류가 있다

  • Semantic Segmentation: 이미지에서, 사람, 자전거, 동물 등 class 분류 만 하는것.
  • Instance Segmentation: 이미지에서 사람, 자전거, 동물을 분류하는것 뿐만아니라, 사람마다, 자전거마다, 동물마다 서로 다른 Instance인지 아닌지를 구분하는것

Class Segmentation

Semantic Segmentation 주요 모델 요약 및 Instance Segmentation 추천 모델

Semantic Seg.
FCN (Fully Convolutional Network)
2015 · Long et al. (UC Berkeley)
Conv Layers Pooling ×5 FC→Conv 1×1 conv Bilinear Upsample ×32 Segmentation

픽셀 단위 분류를 위해 FC layer를 1×1 conv로 대체한 최초의 end-to-end segmentation 네트워크. 스킵 연결(FCN-8s/16s/32s)로 coarse feature를 보완했으나 업샘플링이 단순해 경계 품질이 낮음.

핵심 아이디어
FC layer 제거 → 임의 해상도 입력 가능
업샘플링
Bilinear upsample (×32/16/8)
백본
VGG-16 (기본)
주요 한계
경계 불선명, 공간 정보 손실
장점End-to-end 학습 가능, 구조 단순
단점경계선 품질 낮음, 해상도 복원 부정확
Semantic Seg.
SegNet
2017 · Badrinarayanan et al. (Cambridge)
Encoder (VGG blocks) MaxPool → 저장 indices Feature Map Decoder MaxUnpool (saved indices) → Conv

인코더-디코더 대칭 구조. Max pooling 시 위치 인덱스(pooling indices)를 저장해 디코더에서 정확한 위치로 업샘플링. 추가 파라미터 없이 skip connection 효과를 냄.

핵심 아이디어
Pooling indices 저장 → 정밀 업샘플링
구조
대칭 인코더-디코더 (VGG 기반)
메모리
U-Net 대비 낮음 (feature 전달 X)
적합 분야
도로 장면, 실시간에 가까운 용도
장점메모리 효율, 경계 복원 개선
단점U-Net 대비 세밀한 정보 손실 가능
Semantic Seg.
U-Net
2015 · Ronneberger et al. (U Freiburg)
Enc-1 (64ch) Enc-2 (128) Bottleneck Dec-1 (64ch) Dec-2 (128) skip connection (feature concat)

의료 영상용으로 개발된 인코더-디코더 구조. 인코더의 feature map을 디코더에 직접 연결(concatenation)하는 skip connection으로 공간 정보와 의미 정보를 동시에 보존. 소량 데이터에서도 강력한 성능.

핵심 아이디어
Feature map concat skip connection
강점
소량 데이터, 의료/위성 영상
변형
U-Net++, Attention U-Net, TransUNet
메모리
SegNet 대비 높음 (feature 전달)
장점경계 정밀, 소량 학습 데이터 OK, 확장 용이
단점메모리 사용량 높음
Semantic Seg.
DeepLab (v1→v2→v3→v3+)
2015–2018 · Chen et al. (Google)
Backbone (ResNet/Xception) ASPP rate=6 rate=12 rate=18 1×1 병렬 Dilated Conv Decoder (+ CRF / Low-level feat) Segmentation

Atrous(Dilated) Convolution으로 receptive field를 넓히면서 해상도를 유지하는 것이 핵심. ASPP(Atrous Spatial Pyramid Pooling)로 다양한 스케일의 문맥 정보를 동시에 포착. v3+에서 인코더-디코더 구조와 결합해 경계 정밀도 향상.

핵심 기술
Dilated Conv + ASPP 멀티스케일
버전별 발전
v1(CRF) → v2(ASPP) → v3(개선ASPP) → v3+(디코더)
백본
ResNet-101, Xception
강점
멀티스케일 의미 이해, 높은 mIoU
장점SOTA급 의미론 이해, 다양한 스케일 처리
단점연산량 큼, 실시간 어려움

모델 한눈에 비교

모델 업샘플링 방식 멀티스케일 속도 주요 강점
FCN Bilinear (×32) Skip (낮음) 빠름 단순함, 선구자
SegNet MaxUnpool (indices) 없음 빠름 메모리 효율
U-Net Transposed Conv Skip concat 중간 소량 데이터, 경계 정밀
DeepLab v3+ Dilated + Decoder ASPP (강함) 느림 최고 수준 의미 이해

Instance Segmentation

Instance Segmentation — 현재 많이 쓰는 모델

Instance Seg.
Mask R-CNN 산업 표준
2017 · He et al. (Meta AI / FAIR)

Faster R-CNN + Mask Branch를 추가한 two-stage 모델. RoIAlign으로 경계 정합 문제를 해결. Detectron2 등 많은 프레임워크의 기반. 정확도 높고 생태계 성숙.

구조
Two-stage (RPN → RoIAlign → Mask head)
추천 용도
연구 베이스라인, 정밀도 우선 프로젝트
Instance Seg.
YOLOv8-seg / YOLO11-seg 실시간 1순위
2023–2024 · Ultralytics

One-stage 실시간 instance segmentation. 산업 현장, 엣지 디바이스, 빠른 프로토타이핑에 가장 많이 선택됨. API가 직관적이고 export(ONNX, TensorRT 등)가 쉬워 배포 친화적.

구조
One-stage, prototype mask 기반
추천 용도
실시간, 엣지 디바이스, 빠른 배포
Instance Seg.
SAM / SAM 2 범용 분할
2023–2024 · Meta AI

Segment Anything Model. 점·박스·텍스트 프롬프트로 임의 객체를 분할. 추가 학습 없이 zero-shot 적용 가능. SAM 2는 비디오 확장. 레이블 없는 환경이나 범용 파이프라인에 강함.

구조
Vision Transformer + Prompt Encoder
추천 용도
Zero-shot, 범용 도구, 데이터 레이블링
Instance Seg.
Mask2Former / OneFormer
2022 · Meta AI / SHI Labs

Transformer 기반 통합 segmentation. Panoptic, Instance, Semantic을 단일 모델로 처리. COCO 등 벤치마크 최상위권. OneFormer는 단일 모델로 세 태스크를 동시 지원.

구조
Masked Attention Transformer
추천 용도
연구/정밀 분석, 다중 태스크
선택 가이드
실시간·엣지 → YOLOv8/11-seg · 정확도·연구 → Mask R-CNN / Mask2Former · 레이블 없는 범용 → SAM 2 · 세 가지 seg 통합 → OneFormer

댓글 남기기