๐งฉ Segment Anything, Even Occluded (SAMEO): ๊ฐ๋ ค์ง ๋ถ๋ถ๊น์ง ์ธ๊ทธ๋ฉํธํ๋ SAM ํ์ฅ
๐งฉ (ํ๊ตญ์ด) SAMEO : ๊ฐ๋ ค์ง ๊ฐ์ฒด๊น์ง ํ ๋ฒ์ segmentation!!
- ์ ๋ชฉ: Segment Anything, Even Occluded (SAMEO)
- ํํ: CVPR 2025
- ํ๋ก์ ํธ/๋ฐ๋ชจ: Project Page ยท CVF OpenAccess PDF
- ํต์ฌ ํค์๋:
Amodal Instance Segmentation
,Segment Anything
,EfficientSAM
,Detector+Mask Decoupling
,Amodal-LVIS
- ์์ฝ: SAMEO๋ ๋ณด์ด์ง ์๋(๊ฐ๋ ค์ง) ๋ถ๋ถ๊น์ง Segmentationํ๊ธฐ ์ํด, ๋ค๋ฅธ SOTA ๊ฐ์ฑํ์ง๊ธฐ๋ก ๋จผ์ bboxํ๋ฉด! SAM ํ์ฉํด์ bbox๋ ๋ถ๋ถ + ๊ฐ๋ ค์ง ๋ถ๋ถ segment๋ฅผ ์ฐพ๋๋ค!
๐ง ์ฃผ์ ๊ธฐ์ฌ
SAMEO ํ๋ ์์ํฌ ์ ์
์๋ชจ๋ฌ ๋ถํ ์ (1) ๊ฐ์ฒด ๊ฒ์ถ + (2) ๋ง์คํฌ ๋ณต์์ ๋ ๋จ๊ณ๋ก ๋๋๊ณ , SAM(EfficientSAM)์ ํ๋ฌ๊ทธํ ๋ง์คํฌ ๋์ฝ๋๋ก ํ์ฉํด ๊ฐ๋ ค์ง ํํ๊น์ง ๋ณต์ํฉ๋๋ค. ๊ฒ์ถ๊ธฐ๋ ๊ต์ฒด ๊ฐ๋ฅํ์ฌ ๋ค์ํ ๋ฐฑ๋ณธ๊ณผ ๊ฒฐํฉํ ์ ์์ต๋๋ค. :contentReference[oaicite:2]{index=2}Amodal-LVIS ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์ (โ30๋ง ์ด๋ฏธ์ง)
LVIS/LVVIS๋ฅผ ๋ฐํ์ผ๋ก ์๋ชจ๋ฌ ์ฃผ์์ ํฉ์ฑํ Amodal-LVIS๋ฅผ ์๊ฐํ์ฌ, ์๋ชจ๋ฌ ๋ถํ ์ฐ๊ตฌ์ ํ์ต ๋ฐ์ดํฐ ๋ณ๋ชฉ์ ์ํํ์ต๋๋ค. :contentReference[oaicite:3]{index=3}์ ๋ก์ท ์ผ๋ฐํ
COCOA-cls, D2SA ๋ฑ ๋ฒค์น๋งํฌ์์ ํ์ต๋์ง ์์ ์ํฉ์๋ ๊ฐํ ์ ๋ก์ท ์ฑ๋ฅ์ ๋ณด์ฌ์ค!!์ค์ฉ์ ํ์ฉ์ฑ
๊ธฐ์กด ๋ชจ๋ฌ ๊ฒ์ถ๊ธฐ(์คํ/ํด๋ก์ฆ์ ๋ถ๋ฌธ)์ ๊ฒฐํฉ ๊ฐ๋ฅํ๊ณ , SAM ๊ธฐ๋ฐ ์ฃผ์ ๋๊ตฌ์ฒ๋ผ ๋ถํ +๋ผ๋ฒจ๋ง ํ์ดํ๋ผ์ธ์๋ ์์ฉํ ์ ์์์ ์์ฌํฉ๋๋ค. :contentReference[oaicite:5]{index=5}
๐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
Amodal segmentation(์๋ชจ๋ฌ ๋ถํ )์ด๋!! ๋ณด์ด๋ ์์ญ(Modal) + ๊ฐ๋ ค์ง ์์ญ(Occluded)์ ๋ชจ๋ ๋ณต์ํด์ segmentation ํ๋๊ฒ!!
Instance Segmentation์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ฐ์ฑ ํ์งยท๋ถํ ์ ํ๊บผ๋ฒ์ ํ์ตํด ์ ์ฐ์ฑ์ด ์ ๊ณ , ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ๋ ๋ถ์กฑํ ๋จ์ !!
Segment Anything ์ ๋ชจ๋ ๊ฐ์ฒด๋ฅผ โ์โ ๋ถํ ํ๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด์์ผ๋ฉฐ ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ๊ฐ์ ํ EfficientSAM ๋ ์์์!
๊ธฐ์กด Amodal dataset์ผ๋ก๋ COCO๋ก ๋ถํฐ ์ ๋ํ COCOA, ๋ฐ์ดํฐ์ ์ COCOA/D2SA/COCOA-cls ์ธ์ KINS, DYCE, MUVA, MP3D-Amodal, WALT, KITTI-360-APS ๋ฑ์ด ์์ง๋ง, ๋ชจ๋ ๋จ์ ์ด์์๋ค
DYCE / MP3D-Amodal (ํฉ์ฑยท์ค๋ด 3D ๋ฉ์ฌ ๊ธฐ๋ฐ)์ ๊ฒฝ์ฐ ๊ฑด์ถ ์์๊ฐ ํ๋ฉด ๋๋ถ๋ถ์ ์ฐจ์งํด ํ์ต์ ๋นํจ์จ์ ์ด์์ผ๋ฉฐ, ๊ฐ์ ๋ถ๋ถ์ด ๊ทนํ ์์ ๊ฐ์ฒด(visible < ์ ์ฒด์ ๊ทน์ ๋น์จ)๊ฐ ๋ค์๋ก ํ์ต ์ ํธ ์ฝํจ
WALT (ํ์๋ฉ์คยท๊ตํต ์ฅ๋ฉด ํฉ์ฑ): ๋ฐ์ค ๊ต์ฐจ๋ฅผ ์ด์ฉํ ๊ฐ์ฒด ์ฌํฉ์ฑ ๊ณผ์ ์์ ๋นํ์ค์ ์ธ(์์ฐ์ค๋ฝ์ง ์์) ๊ฐ๋ฆผ ๋ฐ์ํ์๊ณ , ๋ ์ด์ด ์์ฐจ ๋ฐฐ์น๋ก ๊น์ดยท๊ฐ๋ฆผ ๊ด๊ณ ์๊ณก์ ๋ฌธ์
COCOA ๋ฑ ํด๋์ค ์ฃผ์ ํฌํจ ๋ฐ์ดํฐ์ : stuff(๋ฐฐ๊ฒฝ) ํด๋์ค ๋ค์ ํฌํจ โ ์๋ชจ๋ฌ ์ธ์คํด์ค ๋ถํ ๋ชฉํ์ ๋ถํฉํ์ง ์๋ ๋ผ๋ฒจ ํผ์ฌ, ์๋ฏธ ์๋ โ๋ฌผ์ฒดโ ์ค์ฌ์ ํ์ต์ ์ก์ ์ฆ๊ฐ
๐ SAMEO ๊ตฌ์กฐ (Architecture)!!
- Front-end Detector: ๊ธฐ์กด(๋๋ ์ ํธํ๋) ๊ฒ์ถ๊ธฐ๊ฐ BBOX ๊ฐ์ ๋ฅผ ์์ธก ๋ฐ ์ ๋ฌ
- Back-end SAMEO (Mask Decoder): BBOX ๊ฐ์ ๋ฐํ์ผ๋ก EfficientSAM ๋ฐฉ์์ผ๋ก segmentation, ๋ค๋ง ์ด๋ฏธ์ง ์ธ์ฝ๋ยทํ๋กฌํํธ ์ธ์ฝ๋๋ ๋๊ฒฐํ๊ณ Mask Decoder๋ง ๋ฏธ์ธํ์ต
- Input : Original Image + BBox (from detector)
- ์ด๋ bbox์ ๊ฒฐ๊ณผ๋ modal, amodal bbox๋ฅผ 5:5๋ก ๋ชจ๋ ํ์ฉ!!
๐ง ํ์ต์ ๋ ฅ : Loss์ ๊ตฌ์ฑ
0) ์์ฝ
- Dice โ ๊ฒน์นจ ์ต๋ํ
- Focal โ ์ด๋ ค์ด ํฝ์ ๊ฐ์กฐ
- IoU L1 โ ํ์ง ์ ์ ๋ณด์ (์ ๋ขฐ๋ ํ์ต)
1) Dice Loss(3) โ ๊ฒฝ๊ณยท๊ฒน์นจ ์ค์ฌ
- ๋ชฉ์ : ์์ธก ๋ง์คํฌ
Mฬ
์ ์ ๋ต ๋ง์คํฌM_gt
์ ๊ฒน์นจ(Overlap) ์ต๋ํ - ๊ณ์ฐ๋ฐฉ๋ฒ๋ฒ:
[ frac{2\,|Mฬ \cap M_{gt}|} ]- ๋ถ์: ๊ต์งํฉ(๊ฒน์น๋ ํฝ์ ํฉ)
- ๋ถ๋ชจ: ๋ ๋ง์คํฌ์ ํฝ์ ํฉ [ {|Mฬ| + |M_{gt}|} ]
- ํน์ง: ๋ถ๊ท ํ ํด๋์ค(๊ฐ์ฒด๊ฐ ์์ ๋)์์ ์์ ์ . ๊ฒฝ๊ณ ํ์ง ๊ฐ์ ์ ๋์.
2) Focal Loss (4) โ ์ด๋ ค์ด ํฝ์ ์ ๊ฐ์ค์น
- ๋ชฉ์ : ์ด๋ฏธ ์ ๋ง์ถ(์ฌ์ด) ํฝ์ ์ ๊ธฐ์ฌ๋ฅผ ์ค์ด๊ณ , ์ด๋ ค์ด ํฝ์ ์ ํ์ต ์ง์ค
- ์ ์:
- (p_t): ํ๊น ํด๋์ค(ํฌ๊ทธ๋ผ์ด๋/๋ฐฑ๊ทธ๋ผ์ด๋)์ ๋ํ ์์ธก ํ๋ฅ
- (\gamma)โ โ ์ฌ์ด ์ํ ์ต์ โ, ์ด๋ ค์ด ์ํ ๊ฐ์กฐโ (ฮณ=2๋ก ์ค์ )
- ํน์ง: ํฝ์ ๋จ์์ ๋์ด๋ ์กฐ์ ๋ก ๋ฏธ์ธํ ์์ญ/๊ฐ๋ ค์ง ๋ถ๋ถ ํ์ต์ ์ ๋ฆฌ.
3) IoU ์์ธก L1 Loss (ฮป=0.05) โ ํ์ง ์ ์ ๋ณด์
- ๋ชฉ์ : ๋์ฝ๋๊ฐ ๋ด๋ ๋ง์คํฌ ํ์ง ์ถ์ ์น(์: IoU ํค๋์ (\hat{\rho}))๋ฅผ ์ค์ IoU์ ๊ฐ๊น๊ฒ ํ์ต
- ํน์ง: ๋ชจ๋ธ์ด ์์ ์ ๋ง์คํฌ ํ์ง์ ์ค์ค๋ก ํ๊ฐํ๋๋ก ๋ง๋ค์ด,
ํ๋ณด ๋ง์คํฌ ์ค ์ ๋ขฐ๋ ๊ธฐ๋ฐ ์ ํ/ํ์ฒ๋ฆฌ์ ํ์ฉ ๊ฐ๋ฅ. - ๊ฐ์ค์น: ์ ์ฒด ๋ก์ค์์ ฮป = 0.05๋ก ๊ฐ๋ณ๊ฒ ๋ฐ์.
๐ Amodal-LVIS ๋ฐ์ดํฐ์ !!
- ๋ณธ ์ฐ๊ตฌ์์๋ Amodal segmentation ๋ชจ๋ธ ์ธ์๋ ํ์ต ๋ฐ์ดํฐ์ ์ ์ ์ํจ!!
- ์ด ๋ฐ์ดํฐ์ ์ ํฉ์ฑ์ผ๋ก ๋ง๋ค์ด์ง ๋ฐ์ดํฐ์ ์ผ๋ก, 3๋จ๊ณ์ ๊ณผ์ ์ ๊ฑธ์ฒด ์ ์๋จ!!
- ์ด 100๋ง ์ด๋ฏธ์ง / 200๋ง๊ฐ์ ์ฃผ์ ๊ท๋ชจ๋ก ๊ตฌ์ฑ๋จ
๐ ์์ฑ ํ์ดํ๋ผ์ธ
1) Complete Object Collection (์์ ๊ฐ์ฒด ์์ง)
- SAMEO๋ก LVIS/LVVIS ์ธ์คํด์ค์ ์๋ชจ๋ฌ ๋ง์คํฌ ์์ฌ๋ผ๋ฒจ ์์ฑ
- ์์ธก๋ ์๋ชจ๋ฌ ๋ง์คํฌ์ GT ๋ชจ๋ฌ ๋ง์คํฌ๋ฅผ ๋น๊ตํด ์์ ํ ๋ณด์ด๋(๊ฐ๋ ค์ง์ง ์์) ๊ฐ์ฒด๋ง ์ ๋ณ
๊ฒฐ๊ณผ: ์์ ๊ฐ์ฒด ํ(pool) ํ๋ณด
2) Synthetic Occlusion Generation (ํฉ์ฑ ๊ฐ๋ฆผ)
- ํ์์ ๊ฐ์ฒด๋ฅผ ๋ฌด์์ ํ์ด๋งํ์ฌ ๋์ผ ์ฅ๋ฉด์ ํฉ์ฑ ๋ฐฐ์น
- ๋น์จ ์ ์ง + ํฌ๊ธฐ ์ ๊ทํ๋ก ์์ฐ์ค๋ฌ์ด ์ค์ผ์ผ ๋ณด์ฅ
- Bounding box๋ก ์๋ ์์น/๊ฐ๋ฆผ ๋น์จ์ ์ ์ด โ ๊ฐ๋ฆผ ๋์ด๋ ์ปค๋ฆฌํ๋ผ ๊ตฌ์ฑ ๊ฐ๋ฅ
3) Dual Annotation Mechanism (์ด์ค ์ฃผ์) : ์๊ฐ๋ฆฐ ์ฌ์ง๊ณผ ๊ฐ๋ฆฐ์ฌ์ง ์ ์!!
- ์คํ์ ์ผ๋ก ๊ฐ๋ ค์ง ์ฌ๋ก๋ง ํ์ตํ๋ฉด ๋ชจ๋ธ์ด ๊ณผ๋ํ ๊ฐ๋ฆผ ์์ธก์ ํ๊ฒ ๋จ
- ์ด๋ฅผ ๋ง๊ธฐ ์ํด ๊ฐ ์ธ์คํด์ค์ ๋ํด:
- ์๋ณธ(๋น๊ฐ๋ ค์ง) ์ด๋ฏธ์ง/๋ง์คํฌ
- ํฉ์ฑ(๊ฐ๋ ค์ง) ์ด๋ฏธ์ง/๋ง์คํฌ
๋ ๋ฒ์ ์ ๋ชจ๋ ์ ๊ณต โ ํธํฅ ๊ฐ์ + ์ผ๋ฐํ ํฅ์
๐งช Ablation & ๊ฒฐ๊ณผ ๋ถ์
Ablation1 : bbox ์ ๊ณต์ ๊ฐ๋ฆผ ์์ธกํ๋๊ฑฐ๋ง(amodal), ๊ฐ๋ฆผ๋ฌด์ํ๋๊ฑฐ๋ง(modal), ๋ฐ๋ฐ ์ ๋น๊ต! ๋ฐ๋ฐ์ด ์ ์ผ ํจ๊ณผ๊ฐ ์ข์๋ค!
Ablation2 : ๊ฐ๋ ค์ง ์ฌ์ง์ผ๋ก๋ง ํ์ตํ๋! ์คํ๋ ค ๋ช ํํ ๊ฐ์ฑ๊ฒ ๋์ด์๋ ์๋ชป Segmentation ํ๋๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๋ค!
๊ฒฐ๊ณผ๋?
1) ์ ๋ ๊ฒฐ๊ณผ (Quantitative)
- COCOA-cls, D2SA, MUVA ๊ฐ ๋ฐ์ดํฐ์ ์ trainโtest๋ก ํ๊ฐ.
- ํ๋ฐํธ์๋(๊ฒ์ถ๊ธฐ/๋ถํ ๊ธฐ) ์ข ๋ฅ์ ๋ฌด๊ดํ๊ฒ, SAMEO๋ฅผ ๋ถ์ด๋ฉด AISFormer ๋๋น APยทAR ์ ๋ฐ ์์น.
- ๋ชจ๋ฌ/์๋ชจ๋ฌ ์ถ๋ ฅ ๋ชจ๋ SAMEO๊ฐ ์๋ชจ๋ฌ ๋ง์คํฌ๋ก ์ ์ ํด ์ ์ฌํ ๊ณ ์ฑ๋ฅ ๋ฌ์ฑ(ํ๋กฌํํธ ํ์ ๋ถ๋ฌธ).
2) ์ ์ฑ ๊ฒฐ๊ณผ (Qualitative)
- ๋ณต์กํ ์ค์ฒฉ(๋ณ/์ฉ๊ธฐ ๋ค์ค ๊ฐ์ฒด), ์ฌํ ๊ฐ๋ฆผ(์ฅ์ ๋ฌผ ๋ค ์ธ๋ฌผ), ๋ค์ํ ์นดํ
๊ณ ๋ฆฌยท์์ธ์์
- ๊ฒฝ๊ณ๊ฐ ๋ ๋ ์นด๋ก์ด ์๋ชจ๋ฌ ๋ง์คํฌ,
- ๊ฐ๋ ค์ง ๋ถ๋ถ ์ถ๋ก ์ ํฉ๋ฆฌ์ฑ์ด ๊ฐ์ โ ๋ฒ ์ด์ค๋ผ์ธ(AISFormer) ๋๋น ํ์ง ์ฐ์ ํ์ธ.
3) ์ ๋ก์ท ์ฑ๋ฅ (Zero-shot)
- ํ์ต: ์์ฒด ์ปฌ๋ ์ + Amodal-LVIS(๋จ, COCOA-cls/D2SA ์ ์ธ)๋ก ์งํ, ๋ฐฐ์น๋ ๋ก๊ทธ ๋น์จ ์ํ๋ง.
- ํ๊ฐ: ์ ์ธํ ๋ ๋ฐ์ดํฐ์ ์์ ํ๋ฐํธ์๋ ๋ค์ํ๊ฒ ๊ฒฐํฉํด ์ ๋ก์ท ์ฑ๋ฅ ์ธก์ .
- ๊ฒฐ๊ณผ: COCOA-cls(+RTMDet)์์ +13.8 AP, D2SA(+CO-DETR)์์ +8.7 AP ๋ฑ SOTA ๋ฌ์ฑ, EfficientSAM์ ์๋ชจ๋ฌ๋ก ์ฑ๊ณต ์ ์ํ๋ฉด์ ์ ๋ก์ท ์ผ๋ฐํ ์ ์ง.
๐งฉ ๊ฒฐ๋ก
- ์ฌ๋ฌ Object Detector์ ๊ฒฐํฉํ์ฌ, bbox๋ด์ ๊ฐ๋ ค์ง ๋ถ๋ถ๊น์ง segmentation ํ ์ ์๋ SOTA ์๊ณ ๋ฆฌ์ฆ!!
- ๊ฒ๋ค๊ฐ ๋ฐ์ดํฐ์ ๊ณต๊ฐ๊น์ง! ๋ํ!!
๐งฉ (English) SAMEO: Segment occluded objects in one shot!!
- Title: Segment Anything, Even Occluded (SAMEO)
- Conference: CVPR 2025
- Project/Demo: Project Page ยท CVF OpenAccess PDF
- Keywords:
Amodal Instance Segmentation
,Segment Anything
,EfficientSAM
,Detector+Mask Decoupling
,Amodal-LVIS
- Summary: To segment even occluded regions, SAMEO first takes bboxes from another SOTA object detector, then uses SAM to recover both the boxed area and the occluded parts!
๐ง Key Contributions
SAMEO Framework
Decomposes amodal segmentation into (1) object detection + (2) mask reconstruction and uses SAM (EfficientSAM) as a plug-in mask decoder to recover occluded shapes. The detector is swappable and can be paired with various backbones. :contentReference[oaicite:2]{index=2}Amodal-LVIS: Large-Scale Synthetic Dataset (โ300K images)
Introduces Amodal-LVIS, synthesized from LVIS/LVVIS with amodal annotations, alleviating the training data bottleneck for amodal segmentation. :contentReference[oaicite:3]{index=3}Zero-shot Generalization
Shows strong zero-shot performance on benchmarks like COCOA-cls and D2SA!!Practical Utility
Compatible with existing modal detectors (open-/closed-set) and applicable to segmentation + labeling pipelines like SAM-based annotation tools. :contentReference[oaicite:5]{index=5}
๐ Background
Amodal segmentation aims to segment both visible (modal) and occluded regions, reconstructing the full object.
Many instance segmentation methods jointly train detection and segmentation, which reduces flexibility and faces limited large-scale training data.
Segment Anything is a foundation model that segments โanythingโ well; EfficientSAM improves practicality with a lighter design.
Existing amodal datasets include COCOA / D2SA / COCOA-cls, and also KINS, DYCE, MUVA, MP3D-Amodal, WALT, KITTI-360-APSโbut each has drawbacks:
DYCE / MP3D-Amodal (synthetic indoor, 3D mesh-based): Architectural elements (walls/floors/ceilings) dominate the frame โ inefficient signals; many samples where the visible part is extremely small, weakening supervision.
WALT (time-lapse / traffic synthesis): Layered compositing can cause unnatural occlusions and distorted depth/occlusion relationships.
COCOA and similar with class annotations: Many stuff (background) classes โ labels not aligned with amodal instance segmentation, adding noise instead of object-centric learning.
๐ SAMEO Architecture!!
- Front-end Detector: Your existing (or preferred) detector predicts and passes BBoxes.
- Back-end SAMEO (Mask Decoder): Given BBoxes, performs segmentation in the EfficientSAM way; freeze the image encoder & prompt encoder and finetune only the mask decoder.
- Input: Original Image + BBox (from detector)
- Training: Use modal and amodal boxes at a 50:50 ratio!!
๐ง Training Strategy: Loss Composition
0) Summary
- Dice โ maximize overlap
- Focal โ focus on hard pixels
- IoU L1 โ quality score calibration (learn reliability)
1) Dice Loss (Eq. 3) โ Overlap/Boundary-focused
- Goal: Maximize overlap between predicted mask
Mฬ
and ground-truth maskM_gt
- Definition:
[ \mathcal{L}{\text{Dice}} = 1 - \frac{2\,|Mฬ \cap M{gt}|}{|Mฬ| + |M_{gt}|} ]- Numerator: intersection (overlapping pixels)
- Denominator: sum of pixels in both masks
- Note: Stable under class imbalance (small objects); improves boundary quality.
2) Focal Loss (Eq. 4) โ Emphasize hard pixels
- Goal: Down-weight easy pixels and focus on hard ones
- Definition:
[ \mathcal{L}_{\text{Focal}} = - (1 - p_t)^{\gamma}\,\log(p_t),\quad \gamma=2 ]- (p_t): predicted probability of the target class (FG/BG)
- Larger (\gamma) โ stronger suppression of easy samples, more focus on hard samples
- Note: Helps on fine/occluded regions.
3) IoU Prediction L1 Loss (ฮป=0.05) โ Score Calibration
- Goal: Make the decoderโs predicted IoU (\hat{\rho}) close to the true IoU
- Use: Enables confidence refinement and reliable ranking among candidate masks.
- Weight: Use a small coefficient ฮป = 0.05 in the total loss.
๐ Amodal-LVIS Dataset!!
- In addition to the amodal model, this work also presents a training dataset!
- Itโs a synthetic dataset created through a 3-stage pipeline.
- Total size: ~1M images / ~2M annotations
๐ Generation Pipeline
1) Complete Object Collection
- Use SAMEO to generate pseudo amodal masks for LVIS/LVVIS instances.
- Compare predicted amodal masks with GT modal masks to select fully visible (unoccluded) objects.
Outcome: a pool of complete objects.
2) Synthetic Occlusion Generation
- Randomly pair objects from the pool and compose them into the same scene.
- Preserve aspect ratios with size normalization for natural scale.
- Use bounding boxes to control relative positions/occlusion ratios โ enables occlusion curriculum.
3) Dual Annotation Mechanism: provide both unoccluded and occluded versions!
- Training only on occluded cases leads to over-occlusion predictions.
- For each instance, provide:
- Original (unoccluded) image/mask
- Synthesized (occluded) image/mask
โ Reduces bias and improves generalization.
๐งช Ablation & Results
Ablation 1: With bbox prompts, compare amodal-only, modal-only, and 50:50 mixed. The mixed setup performs best overall!
Ablation 2: Training only on occluded images leads to incorrect segmentation even when the target object is clearly indicated by the bbox!
Results?
1) Quantitative
- Evaluate trainโtest on COCOA-cls, D2SA, MUVA.
- Regardless of the front-end type, attaching SAMEO yields AP/AR gains over AISFormer.
- Whether the front-end outputs modal or amodal masks, SAMEO refines them into strong amodal performance (prompt-type agnostic).
2) Qualitative
- In challenging casesโcomplex overlaps (bottles/containers), heavy occlusions (people behind barriers), diverse categories/posesโ
- Sharper amodal boundaries,
- More reasonable occlusion inference than the baseline (AISFormer).
3) Zero-shot
- Training: Our collection + Amodal-LVIS (excluding COCOA-cls/D2SA), with log-proportional dataset sampling per batch.
- Evaluation: Zero-shot on the two held-out datasets with various front-ends.
- Results: +13.8 AP on COCOA-cls (with RTMDet), +8.7 AP on D2SA (with CO-DETR) โ SOTA, successfully adapts EfficientSAM to amodal while preserving zero-shot generalization.
๐งฉ Conclusion
- A SOTA plug-in that works with various object detectors to segment both visible and occluded regions within the bbox!
- And they release a dataset as wellโthanks!!