📌 LOCATE: Weakly Supervised Affordance Grounding을 위한 Object Part Localization & Transfer

Posted Jul 7, 2025

By DrFirst

5 min read

제목: LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
학회: CVPR 2023
코드/체크포인트: GitHub – LOCATE
저자: Gen Li (University of Edinburgh), Varun Jampani (Google Research), Deqing Sun (Google Research), Laura Sevilla-Lara (University of Edinburgh)
핵심 키워드: Affordance, Weakly-Supervised, Knowledge Transfer, Object Parts, DINO-ViT
요약: LOCATE는 이미지 수준 라벨만 이용하는 WSAG(Weakly Supervised Affordance Grounding) 문제에서, Object-Part Prototype 추출 및 전이 방식을 통해 affordance 부위를 더 정확히 찾아내는 프레임워크. 기존 SOTA 대비 seen/unseen 객체 모두에서 성능 향상 🚀

한 줄 요약: “LOCATE = Object-Part Localization + Prototype Selection + Part-Level Knowledge Transfer”

1) 연구 배경 (WSAG)

2) LOCATE 방법론

Step 1. Interaction Localization (CAM): exocentric 이미지에서 상호작용 영역을 CAM으로 검출
Step 2. PartSelect 모듈: ROI 임베딩을 클러스터링 → 사람 / 배경 / 객체 부위로 분리, DINO-ViT feature로 object part prototype 선택
Step 3. Part-Level Knowledge Transfer: 선택된 object-part prototype을 egocentric 이미지 학습에 supervision으로 사용

3) Loss 설계

L_cls: affordance 분류를 위한 cross-entropy loss
L_cos: object-part prototype과 egocentric feature 정렬을 위한 cosine embedding loss
L_c: affordance 영역 집중화를 위한 concentration loss
최종 Loss: L = L_cls + λcos * L_cos + λc * L_c

Fully Supervised: AffordanceNet (Do et al., 2018), Myers et al. (2015) – 픽셀 단위 라벨 필요 → 비용 큼
Weakly Supervised: Hotspots (Nagarajan et al., 2019), Cross-View-AG (Luo et al., 2022) – CAM 기반 affordance grounding
- Cross-View-AG 가 최신인데, 다만 GKT(Global Knowledge Transfer여서서) 잡음이 너무 많이들어간다!
LOCATE의 차별점: Global feature transfer 대신 part-level prototype transfer로 더 정밀하고 일반화 가능

N개의 클러스터랑 ego이미지으 인코딩 F_ego랑 Similarity를 바탕으로 비교함
- ego이미지의 DINO-VIT임베딩의 패치별 클러스터와의 유사도를 비교!
ego를 DINO-ViT를 통해 임베딩 산출
3,4의 결과물을 PartIOU를 계산해서 최종 saliency 선정!!

L = L_cls + λ_cos * L_cos + λ_c * L_c

✅ 결론

LOCATE는 Part-Level Object Affordance Transfer를 통해 WSAG 문제를 효과적으로 해결
주요 기여:
1. Exocentric → Egocentric 부위 단위 지식 전이
2. PartSelect 모듈로 object part prototype 자동 선택
3. SOTA 성능 + 파라미터 효율성 입증
→ 로봇 지각, 인간-로봇 상호작용, AR/VR 응용에서 활용 가능 🎯

This post is licensed under CC BY 4.0 by the author.