Post

📌 LOCATE: Weakly Supervised Affordance Grounding을 위한 Object Part Localization & Transfer

📌 LOCATE: Weakly Supervised Affordance Grounding을 위한 Object Part Localization & Transfer

📌 (한국어) LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding

Image

  • 제목: LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
  • 학회: CVPR 2023
  • 코드/체크포인트: GitHub – LOCATE
  • 저자: Gen Li (University of Edinburgh), Varun Jampani (Google Research), Deqing Sun (Google Research), Laura Sevilla-Lara (University of Edinburgh)
  • 핵심 키워드: Affordance, Weakly-Supervised, Knowledge Transfer, Object Parts, DINO-ViT
  • 요약: LOCATE는 이미지 수준 라벨만 이용하는 WSAG(Weakly Supervised Affordance Grounding) 문제에서, Object-Part Prototype 추출 및 전이 방식을 통해 affordance 부위를 더 정확히 찾아내는 프레임워크. 기존 SOTA 대비 seen/unseen 객체 모두에서 성능 향상 🚀

🚀 연구 핵심 요약

한 줄 요약: “LOCATE = Object-Part Localization + Prototype Selection + Part-Level Knowledge Transfer”

1) 연구 배경 (WSAG)

  • Affordance Grounding: 사물의 특정 부위가 어떤 행동을 가능하게 하는지 학습 (예: 컵 손잡이=잡기, 칼날=자르기)
  • 기존 CAM 기반 접근은 라벨링 비용이 크고, 학습된 activation이 사람·배경 노이즈를 포함하는 문제 존재

2) LOCATE 방법론

  • Step 1. Interaction Localization (CAM): exocentric 이미지에서 상호작용 영역을 CAM으로 검출
  • Step 2. PartSelect 모듈: ROI 임베딩을 클러스터링 → 사람 / 배경 / 객체 부위로 분리, DINO-ViT feature로 object part prototype 선택
  • Step 3. Part-Level Knowledge Transfer: 선택된 object-part prototype을 egocentric 이미지 학습에 supervision으로 사용

3) Loss 설계

  • L_cls: affordance 분류를 위한 cross-entropy loss
  • L_cos: object-part prototype과 egocentric feature 정렬을 위한 cosine embedding loss
  • L_c: affordance 영역 집중화를 위한 concentration loss
  • 최종 Loss: L = L_cls + λcos * L_cos + λc * L_c

🔍 기존의 관련 연구들

  1. Fully Supervised: AffordanceNet (Do et al., 2018), Myers et al. (2015) – 픽셀 단위 라벨 필요 → 비용 큼

  2. Weakly Supervised: Hotspots (Nagarajan et al., 2019), Cross-View-AG (Luo et al., 2022) – CAM 기반 affordance grounding
    • Cross-View-AG 가 최신인데, 다만 GKT(Global Knowledge Transfer여서서) 잡음이 너무 많이들어간다!
      Image
  3. LOCATE의 차별점: Global feature transfer 대신 part-level prototype transfer로 더 정밀하고 일반화 가능

🔍 본 연구의 방법론!!!

3.1 . Locating Interaction Regions(based on CAM)

Image

  • Input: Image(exo and ego) + label(action)
  • Model : projection + MLP
  • Output : Classification score(z) + CAM
  • Loss : Cross-entropy loss(L_cls)

3.2 Object-Part Embedding Selection

Image

  1. 3.1의 projection + MLP 에 exo 이미지결과 중, z가 τ(일정 임계값) 이상인 것만 추출함(L)
  2. 이 L들을 N 개의 클러터로 만듦!
    • 실험에서는 N을 3으로 했고, 사람/배경/object로 개념화됨!

Image

  1. N개의 클러스터랑 ego이미지으 인코딩 F_ego랑 Similarity를 바탕으로 비교함
    • ego이미지의 DINO-VIT임베딩의 패치별 클러스터와의 유사도를 비교!
  2. ego를 DINO-ViT를 통해 임베딩 산출
  3. 3,4의 결과물을 PartIOU를 계산해서 최종 saliency 선정!!

3.3. Part-Level Knowledge Transfer

Image

  1. 3.1에서의 결과물 CAM과 3.2에서의 결과물 Saliency를 동일하게 만듬 : L_cos (Cosine Similarity loss)
  2. 결과를 더 중앙에 집중되게 만듬 : L_c

그래서 최종 LOSS는!?

L = L_cls + λ_cos * L_cos + λ_c * L_c


🧪 실험 결과 및 성능

  • 데이터셋: AGD20K (20k exocentric, 3.7k egocentric, 36 affordance)

Image

  • Seen/Unseen 모두에서 SOTA 달성
  • 기존 Cross-View-AG+ 대비 KLD 20.4% ↓, SIM 33.3% ↑, NSS 31.2% ↑
  • 파라미터 수 6.5M, 추론 속도 0.011s → 효율적

  • Ablation Test!?

Image

  • GKT → RKT: 기존 GKT 보다 RKT가 효과적임!!
  • Lc: 예측 결과를 더 집중시키는 보조적 역할도 소폭 상승으로 의미가 있었고,
  • PartSelect (S): 성능 향상의 핵심 모듈로서 Part-Level Knowledge Transfer기능 확인
  • 최종 조합 (S+Lc): Seen/Unseen 모두에서 SOTA 성능 달성

✅ 결론

  • LOCATE는 Part-Level Object Affordance Transfer를 통해 WSAG 문제를 효과적으로 해결
  • 주요 기여:
    1. Exocentric → Egocentric 부위 단위 지식 전이
    2. PartSelect 모듈로 object part prototype 자동 선택
    3. SOTA 성능 + 파라미터 효율성 입증
  • → 로봇 지각, 인간-로봇 상호작용, AR/VR 응용에서 활용 가능 🎯

This post is licensed under CC BY 4.0 by the author.