Segmentation에는 두 종류가 있다
- Semantic Segmentation: 이미지에서, 사람, 자전거, 동물 등 class 분류 만 하는것.
- Instance Segmentation: 이미지에서 사람, 자전거, 동물을 분류하는것 뿐만아니라, 사람마다, 자전거마다, 동물마다 서로 다른 Instance인지 아닌지를 구분하는것
Class Segmentation
Semantic Segmentation 주요 모델 요약 및 Instance Segmentation 추천 모델
픽셀 단위 분류를 위해 FC layer를 1×1 conv로 대체한 최초의 end-to-end segmentation 네트워크. 스킵 연결(FCN-8s/16s/32s)로 coarse feature를 보완했으나 업샘플링이 단순해 경계 품질이 낮음.
인코더-디코더 대칭 구조. Max pooling 시 위치 인덱스(pooling indices)를 저장해 디코더에서 정확한 위치로 업샘플링. 추가 파라미터 없이 skip connection 효과를 냄.
의료 영상용으로 개발된 인코더-디코더 구조. 인코더의 feature map을 디코더에 직접 연결(concatenation)하는 skip connection으로 공간 정보와 의미 정보를 동시에 보존. 소량 데이터에서도 강력한 성능.
Atrous(Dilated) Convolution으로 receptive field를 넓히면서 해상도를 유지하는 것이 핵심. ASPP(Atrous Spatial Pyramid Pooling)로 다양한 스케일의 문맥 정보를 동시에 포착. v3+에서 인코더-디코더 구조와 결합해 경계 정밀도 향상.
모델 한눈에 비교
| 모델 | 업샘플링 방식 | 멀티스케일 | 속도 | 주요 강점 |
|---|---|---|---|---|
| FCN | Bilinear (×32) | Skip (낮음) | 빠름 | 단순함, 선구자 |
| SegNet | MaxUnpool (indices) | 없음 | 빠름 | 메모리 효율 |
| U-Net | Transposed Conv | Skip concat | 중간 | 소량 데이터, 경계 정밀 |
| DeepLab v3+ | Dilated + Decoder | ASPP (강함) | 느림 | 최고 수준 의미 이해 |
Instance Segmentation
Instance Segmentation — 현재 많이 쓰는 모델
Faster R-CNN + Mask Branch를 추가한 two-stage 모델. RoIAlign으로 경계 정합 문제를 해결. Detectron2 등 많은 프레임워크의 기반. 정확도 높고 생태계 성숙.
One-stage 실시간 instance segmentation. 산업 현장, 엣지 디바이스, 빠른 프로토타이핑에 가장 많이 선택됨. API가 직관적이고 export(ONNX, TensorRT 등)가 쉬워 배포 친화적.
Segment Anything Model. 점·박스·텍스트 프롬프트로 임의 객체를 분할. 추가 학습 없이 zero-shot 적용 가능. SAM 2는 비디오 확장. 레이블 없는 환경이나 범용 파이프라인에 강함.
Transformer 기반 통합 segmentation. Panoptic, Instance, Semantic을 단일 모델로 처리. COCO 등 벤치마크 최상위권. OneFormer는 단일 모델로 세 태스크를 동시 지원.
실시간·엣지 → YOLOv8/11-seg · 정확도·연구 → Mask R-CNN / Mask2Former · 레이블 없는 범용 → SAM 2 · 세 가지 seg 통합 → OneFormer