🔍양방향 학습을 통한 Affordance Grounding 문제해결! (ICCV 2025)
🔍양방향 학습을 통한 Affordance Grounding 문제해결! (ICCV 2025)
🔍 Closed-Loop Transfer for Weakly-supervised Affordance Grounding 논문 읽기!
- 제목: Closed-Loop Transfer for Weakly-supervised Affordance Grounding
- 학회 및 저자: Tang et al., ICCV 2025
- 요약: 기존 연구인 LOCATE의 일방향 transfer를 넘어, 쌍방향 Transfer를 통해 고도화하자!! 🚀
🚀 연구 핵심 요약
한 줄 요약: 기존 연구인 LOCATE의 일방향 transfer를 넘어, 쌍방향 Transfer를 통해 고도화하자!! 🚀
- 일방향 : Activation -> Localization
- 양방향 : Activation -> Localization + Localization -> Activation
1) Open Problems!
- 기존 연구인 LOCATE는 exo에서 ego로으 knowledge transfer만 있다!!
- 그래서
exocentric (interaction-centered)관점과egocentric (object-centered)관점의 차이가 생기는데, 반영을 못하고! - exo의 가림도 반영이 안되기에 진짜 affordance 영역을 잘 못찾는다!
- 그래서
2) Their solutions
① 양방향의 학습법(LoopTrans)를 통해서 exo와 ego domain을 모두 학습한다!
🔍 기존의 관련 연구들!
- LOCATE!!
- CAM(Class Activation Map)을 기반, Action Label을 바탕으로하는 Weakly Supervisedlearning 방법론을 제시
- Exo 이미지의 CAM 모델을 만들어 ego 이미지에 적용,
- 결국, exo 의 추출 내용을 ego 이미지에 반영하는 일방향의 연구!
- LOCATE : Li et al., “Locate: Localize and transfer object parts for weakly supervised affordance grounding.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
- WSMA!!
- exo 이미징서 상호작용 affordance 지식을 추출하고,
- ego 이미지와 텍스트 특징을 결합한것과 align 한다.
- 결국, exo 의 추출 내용을 ego 이미지에 반영하는 일방향의 연구!
- Xu et al., “Weakly Supervised Multimodal Affordance Grounding for Egocentric Images” AAAI 2024
🔍 본 연구의 방법론!!!
4. 모델 Architecture
A. 𝜣_pixel : 최종 inference에 사용되는 모델.
- 추론단계 : I_ego => DINO-ViT => F_ego => 𝜣_pixel 을 통해 최종 heatmap(P) 가 나온다.
B. 𝜣_scam : ego 이미지와 exo 이미지를 동시에 활용하여 학습된, 공통 CAM 모델 (shared CAM)으로 𝜣_pixel 학습에 활용됨
C. Loss는? 3가지 Loss로 구성
- 1번. Interaction → Activation 로, CAM 모델을 학습시키는 Loss.
L_cls - 2번. Activation → Localization 으로써, ego 이미지의 activation 결과를 모델 locatalization에 적용시키는
L_pixel - 3번. Localization -> Activation 로써, Localized 된 결과를 Activation 과 align 하는
L_dill - 4번. exo와 ego 의 align을 담당하는
L_corr
4.1 Unified Exo-to-Ego Activation
𝜣_scam 을 학습시킨다!!
- exo 와 exo 이미지를 통합, action 을 label로하는 shared CAM 모델을 만든다!
L_cls를 통하여 학숩됨
4.2. Region Activation to Pixel Localization
inference의 메인 모델인 𝜣_pixel 을 학습시킨다!!
- DINO 결과를 통해 clusted 된 Localization 결과물(M_ego)에 우리의 activation 결과를 일치시킨다.
- 즉! Activation → Localization
L_pixel를 통하여 학습됨
4.3. Ego-to-Exo Denoising Distillation
dino의 activation 결과에 우리의 localization 결과를 align 시킨다!
- 우리의 메인모델 𝜣_pixel 를 통해 나온 결과물(activation) 이 exo이미지의 ViT의 결과(localization) 와 align되며!
- 추가로, noise head를 통해 추출된
f_noise_m이 xo이미지의 ViT의 결과(localization)와 negative align 된다!!
이를 통해서 Loop의 마지막인 Localization -> Activation 진행!!
🧪 실험 결과 및 Ablation
Ablation Test
- Base line은 LOCATE에서 part selection 뺸 것!! L_corr 만 있음
- Activation → Localization 안되고, Localization -> Activation만 된 1번 부분은 별로 안좋네!?
- 모두 합쳐진 Closed-Loop에서 역시 제일 좋구나!!
최종 성능도 좋았다!!!
✅ 결론
- 양방향 학습을 통한 새로운 방법 정의!
This post is licensed under CC BY 4.0 by the author.