📌 LOCATE: Weakly Supervised Affordance Grounding을 위한 Object Part Localization & Transfer
📌 LOCATE: Weakly Supervised Affordance Grounding을 위한 Object Part Localization & Transfer
📌 (한국어) LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
- 제목: LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
- 학회: CVPR 2023
- 코드/체크포인트: GitHub – LOCATE
- 저자: Gen Li (University of Edinburgh), Varun Jampani (Google Research), Deqing Sun (Google Research), Laura Sevilla-Lara (University of Edinburgh)
- 핵심 키워드:
Affordance
,Weakly-Supervised
,Knowledge Transfer
,Object Parts
,DINO-ViT
- 요약: LOCATE는 이미지 수준 라벨만 이용하는 WSAG(Weakly Supervised Affordance Grounding) 문제에서, Object-Part Prototype 추출 및 전이 방식을 통해 affordance 부위를 더 정확히 찾아내는 프레임워크. 기존 SOTA 대비 seen/unseen 객체 모두에서 성능 향상 🚀
🚀 연구 핵심 요약
한 줄 요약: “LOCATE = Object-Part Localization + Prototype Selection + Part-Level Knowledge Transfer”
1) 연구 배경 (WSAG)
- Affordance Grounding: 사물의 특정 부위가 어떤 행동을 가능하게 하는지 학습 (예: 컵 손잡이=잡기, 칼날=자르기)
- 기존 CAM 기반 접근은 라벨링 비용이 크고, 학습된 activation이 사람·배경 노이즈를 포함하는 문제 존재
2) LOCATE 방법론
- Step 1. Interaction Localization (CAM): exocentric 이미지에서 상호작용 영역을 CAM으로 검출
- Step 2. PartSelect 모듈: ROI 임베딩을 클러스터링 →
사람 / 배경 / 객체 부위
로 분리, DINO-ViT feature로 object part prototype 선택 - Step 3. Part-Level Knowledge Transfer: 선택된 object-part prototype을 egocentric 이미지 학습에 supervision으로 사용
3) Loss 설계
- L_cls: affordance 분류를 위한 cross-entropy loss
- L_cos: object-part prototype과 egocentric feature 정렬을 위한 cosine embedding loss
- L_c: affordance 영역 집중화를 위한 concentration loss
- 최종 Loss:
L = L_cls + λcos * L_cos + λc * L_c
🔍 기존의 관련 연구들
Fully Supervised: AffordanceNet (Do et al., 2018), Myers et al. (2015) – 픽셀 단위 라벨 필요 → 비용 큼
- Weakly Supervised: Hotspots (Nagarajan et al., 2019), Cross-View-AG (Luo et al., 2022) – CAM 기반 affordance grounding
- LOCATE의 차별점: Global feature transfer 대신 part-level prototype transfer로 더 정밀하고 일반화 가능
🔍 본 연구의 방법론!!!
3.1 . Locating Interaction Regions(based on CAM)
- Input: Image(exo and ego) + label(action)
- Model : projection + MLP
- Output : Classification score(z) + CAM
- Loss : Cross-entropy loss(L_cls)
3.2 Object-Part Embedding Selection
- 3.1의 projection + MLP 에 exo 이미지결과 중, z가 τ(일정 임계값) 이상인 것만 추출함(L)
- 이 L들을 N 개의 클러터로 만듦!
- 실험에서는 N을 3으로 했고, 사람/배경/object로 개념화됨!
- N개의 클러스터랑 ego이미지으 인코딩 F_ego랑 Similarity를 바탕으로 비교함
- ego이미지의 DINO-VIT임베딩의 패치별 클러스터와의 유사도를 비교!
- ego를 DINO-ViT를 통해 임베딩 산출
- 3,4의 결과물을 PartIOU를 계산해서 최종 saliency 선정!!
3.3. Part-Level Knowledge Transfer
- 3.1에서의 결과물 CAM과 3.2에서의 결과물 Saliency를 동일하게 만듬 : L_cos (Cosine Similarity loss)
- 결과를 더 중앙에 집중되게 만듬 : L_c
그래서 최종 LOSS는!?
L = L_cls + λ_cos * L_cos + λ_c * L_c
🧪 실험 결과 및 성능
- 데이터셋: AGD20K (20k exocentric, 3.7k egocentric, 36 affordance)
- Seen/Unseen 모두에서 SOTA 달성
- 기존 Cross-View-AG+ 대비 KLD 20.4% ↓, SIM 33.3% ↑, NSS 31.2% ↑
파라미터 수 6.5M, 추론 속도 0.011s → 효율적
- Ablation Test!?
- GKT → RKT: 기존 GKT 보다 RKT가 효과적임!!
- Lc: 예측 결과를 더 집중시키는 보조적 역할도 소폭 상승으로 의미가 있었고,
- PartSelect (S): 성능 향상의 핵심 모듈로서 Part-Level Knowledge Transfer기능 확인
- 최종 조합 (S+Lc): Seen/Unseen 모두에서 SOTA 성능 달성
✅ 결론
- LOCATE는 Part-Level Object Affordance Transfer를 통해 WSAG 문제를 효과적으로 해결
- 주요 기여:
- Exocentric → Egocentric 부위 단위 지식 전이
- PartSelect 모듈로 object part prototype 자동 선택
- SOTA 성능 + 파라미터 효율성 입증
- → 로봇 지각, 인간-로봇 상호작용, AR/VR 응용에서 활용 가능 🎯
This post is licensed under CC BY 4.0 by the author.