🔍양방향 학습을 통한 Affordance Grounding 문제해결! (ICCV 2025)

Posted Nov 10, 2025

By DrFirst

4 min read

🔍 Closed-Loop Transfer for Weakly-supervised Affordance Grounding 논문 읽기!

제목: Closed-Loop Transfer for Weakly-supervised Affordance Grounding
학회 및 저자: Tang et al., ICCV 2025
요약: 기존 연구인 LOCATE의 일방향 transfer를 넘어, 쌍방향 Transfer를 통해 고도화하자!! 🚀

🚀 연구 핵심 요약

한 줄 요약: 기존 연구인 LOCATE의 일방향 transfer를 넘어, 쌍방향 Transfer를 통해 고도화하자!! 🚀
일방향 : Activation -> Localization
양방향 : Activation -> Localization + Localization -> Activation

1) Open Problems!

기존 연구인 LOCATE는 exo에서 ego로으 knowledge transfer만 있다!!
- 그래서 exocentric (interaction-centered) 관점과 egocentric (object-centered) 관점의 차이가 생기는데, 반영을 못하고!
- exo의 가림도 반영이 안되기에 진짜 affordance 영역을 잘 못찾는다!

2) Their solutions
① 양방향의 학습법(LoopTrans)를 통해서 exo와 ego domain을 모두 학습한다!

🔍 기존의 관련 연구들!

LOCATE!!
- CAM(Class Activation Map)을 기반, Action Label을 바탕으로하는 Weakly Supervisedlearning 방법론을 제시
- Exo 이미지의 CAM 모델을 만들어 ego 이미지에 적용,
- 결국, exo 의 추출 내용을 ego 이미지에 반영하는 일방향의 연구!
- LOCATE : Li et al., “Locate: Localize and transfer object parts for weakly supervised affordance grounding.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
WSMA!!
- exo 이미징서 상호작용 affordance 지식을 추출하고,
- ego 이미지와 텍스트 특징을 결합한것과 align 한다.
- 결국, exo 의 추출 내용을 ego 이미지에 반영하는 일방향의 연구!
- Xu et al., “Weakly Supervised Multimodal Affordance Grounding for Egocentric Images” AAAI 2024

🔍 본 연구의 방법론!!!

4. 모델 Architecture

A. 𝜣_pixel : 최종 inference에 사용되는 모델.

추론단계 : I_ego => DINO-ViT => F_ego => 𝜣_pixel 을 통해 최종 heatmap(P) 가 나온다.

B. 𝜣_scam : ego 이미지와 exo 이미지를 동시에 활용하여 학습된, 공통 CAM 모델 (shared CAM)으로 𝜣_pixel 학습에 활용됨

C. Loss는? 3가지 Loss로 구성

1번. Interaction → Activation 로, CAM 모델을 학습시키는 Loss. L_cls
2번. Activation → Localization 으로써, ego 이미지의 activation 결과를 모델 locatalization에 적용시키는 L_pixel
3번. Localization -> Activation 로써, Localized 된 결과를 Activation 과 align 하는 L_dill
4번. exo와 ego 의 align을 담당하는 L_corr

4.1 Unified Exo-to-Ego Activation

𝜣_scam 을 학습시킨다!!

exo 와 exo 이미지를 통합, action 을 label로하는 shared CAM 모델을 만든다!
L_cls를 통하여 학숩됨

4.2. Region Activation to Pixel Localization

inference의 메인 모델인 𝜣_pixel 을 학습시킨다!!

DINO 결과를 통해 clusted 된 Localization 결과물(M_ego)에 우리의 activation 결과를 일치시킨다.
즉! Activation → Localization
L_pixel를 통하여 학습됨

4.3. Ego-to-Exo Denoising Distillation

dino의 activation 결과에 우리의 localization 결과를 align 시킨다!

우리의 메인모델 𝜣_pixel 를 통해 나온 결과물(activation) 이 exo이미지의 ViT의 결과(localization) 와 align되며!
추가로, noise head를 통해 추출된 f_noise_m이 xo이미지의 ViT의 결과(localization)와 negative align 된다!!

이를 통해서 Loop의 마지막인 Localization -> Activation 진행!!

🧪 실험 결과 및 Ablation

Ablation Test

Base line은 LOCATE에서 part selection 뺸 것!! L_corr 만 있음
Activation → Localization 안되고, Localization -> Activation만 된 1번 부분은 별로 안좋네!?
모두 합쳐진 Closed-Loop에서 역시 제일 좋구나!!

최종 성능도 좋았다!!!

✅ 결론

양방향 학습을 통한 새로운 방법 정의!

AI, Research

This post is licensed under CC BY 4.0 by the author.