🔍 WSAG-PLSP: Weakly Supervised 학습을 통한 Affordance Grounding 문제해결!
🔍 (한국어) WSAG-PLSP: Part-Level Semantic Propagation으로 Affordance Grounding 문제 해결!
- 제목: WSAG-PLSP: Part-Level Semantic Propagation for Weakly Supervised Affordance Grounding
- 학회: ICLR 2025
- 코드/체크포인트: GitHub – WSAG-PLSP
- 저자: Peiran Xu, Yadong Mu(Peking University)
- 핵심 키워드:
Affordance,Weakly-Supervised,Part-Level,Semantic Propagation,Vision-Language - 요약: WSAG-PLSP는 이미지 수준 라벨만 이용해 affordance를 학습하는 Weakly Supervised Affordance Grounding (WSAG) 문제에서, 부위 단위(Part-Level) 의미 전파(PLSP)를 통해 affordance 위치를 더욱 정밀하게 찾아내는 새로운 프레임워크를 제안. AGD20K, UMD, IIT-AFF 등 데이터셋에서 SOTA 성능 달성 🚀
🚀 연구 핵심 요약
한 줄 요약: “WSAG-PLSP = Pseudo label을 만들고 한번 더 정제하며, Exo 이미지와 함께 Transformer로 supervised 하게 학습시킨다!”
1) 새 과제 배경 (WSAG)
- Weakly Supervised Affordance Grounding: 픽셀 단위 레이블 없이 affordance 지역(localization) 학습
- 기존 CAM 기반 접근은 단순 부분 강조에 그쳐 affordance가 형성되는 세부 부위 간 의미 관계를 포착하지 못함
2) WSAG-PLSP 방법론
① Pseudo Label 만들기 : 작업된 object part prompt(p) 를 VLpart + SAM을 통해 Label로 제작
② Refine Label : exo의 겹침현상이 발생하는 개념에서 착안, 일부는 Pretrained Label 제작
③ Supervised Baseline : Cross modal fuser(transformer) 구조로 Label을 학습
④ Exo 이미지 활용: 가장 유사한 1개 이미지를 바탕으로 Align
3) 최종 출력
- affordance heatmap (픽셀 단위)
- object별 affordance presence score
🔍 기존의 관련 연구들!
- Affordance 라는 개념의 등장! : 1977년, 심리학 관점에서 Gibson이 제안한 개념!!
- 최근에는 로봇에 적용한 AI로서 많이 연구됨!
- Fully supervised : 초기에는 완전 지도학습으로 연구!!
- 높은 성능, 하지만 라벨링 비용·주관성 문제로 클래스 다양성 부족 (Myers et al., 2015; Nguyen et al., 2017).
- Weakly Supervised 관점의 연구들이 등장함: 이미지 수준 라벨(+ exo-centric이미지)만 제공하고 예측하기!
- 기존 방법(CROSS-VIEW-AG, LOCATE, WSMA)들은 대부분 CAM 기반으로 affordance 분류, 그런데 CAM은 두드러진 부분만 강조해 affordance 전 영역 포착이 어렵다는 단점이 존재.
- 또한 exocentric images 활용에서도, 기존 방식들은 글로벌 풀링(CROSS-VIEW-AG)/마스킹 풀링(LOCATE) 방식이라 노이즈 유입 가능
- Visual Foundation Models (VFM)과 Multi-modal LLMs (MLLMs)의 발전
- SAM, CLIP, VL-part등 여려 연구가 있어왔고 성능도 좋다!
- 이들을 통해 제로샷으로 고품질 dense annotation 가능
(참고) 각 연구별 reference
- CROSS-VIEW-AG : Luo, Hongchen, et al. “Learning affordance grounding from exocentric images.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
- LOCATE : Li, Gen, et al. “Locate: Localize and transfer object parts for weakly supervised affordance grounding.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
- WSMA : Xu, Lingjing, et al. “Weakly supervised multimodal affordance grounding for egocentric images.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 6. 2024.
🔍 본 연구의 방법론!!!
3.2 모델 Architecture
- Enc_V : 이미지 인코딩. 이미지 I를 인코딩하여 F_V로 변환
- Enc_T : 텍스트 인코딩. afforance query(a)를 벡터 f_T로 변환(CLIP기반)
- Cross Modal Fuser: f_T랑 F_V를 바탕으로 통합된 affordance grounding 정보 벡터 f_A 생성(Transformer 블록 기반 cross-attention (query = f_T, key/value = F_V))
- Dec : F_V와 f_A를 바탕으로 디코딩하여 최종 히트맵 H_pred 생성(SAM 기반)
3.3 PSEUDO LABELS(H_pl) 만들기
- 본 연구의 중요한점은, VLM을 활용하여 ego이미지에 대한 pseudo label(H_pl)을 만들어서 supervised 방식으로 학습하는것!!
- 2 step으로 이루어짐
Step1) part name(p) 만들기!
- 지금의 affordance 는 모두 action(verb)이기에, 기존 VLM이 잘하는 명사 예측과는 차이가 있다.
- 한편 주어진 객채(o)의 affordance는 객체의 일부분이다!
- 그래서! P(o,a) 로 객채의 부분명사를 추출할수 있게함 (ex. P(knife, hold) = handle of the knife)
- 이때 함수 P는 LLM을 활용할수도 있으며 이 연구는 수작업으로!!
Step2)학습대상인 H_pl 만들기
- VLpart라는 모델을 활용, p를 바탕으로 bbox를 만들고,
- SAM으로 bbox내의 segmentation 진행!! mask인 M_ego_part 추출!
- M_ego_part를 변환해서 heatmap형식의 H_pl을 만들고, 우리 모델의 결과 H_pred와 값 비교!
다만!) VLpart 가 역할을 잘 못하는 문제, 혹은 명확한 p를 만들수 없는 문제가 있음!!
- 이로인해 H_pl의 정확도가 낮아지는문제가 있어!!
3.4 EXOCENTRIC 이미지 활용하기!
- 지금까지는 ego만 썼다!
- Exo-centric 이미지(I_exo) > Enc_V > F_exo_V
- I_ego > Enc_V > F_ego_V
- 이 F_ego_V, F_exo_V 를 GAP하여 object action 의 특징을 추출하면!! 배경이라던지 잡음이 들어간다!
- 그래서, 다시 VLpart, SAM이 등장한다!.
- I_exo > VLpart with object > SAM > M_exo_obj
- M_exo_obj 랑 F_exo_B를 average-pooling 해서 f_E 구하고( 이미지에서의 object 벡터),
- Cross Modal Fuser의 결과물인 f_A와 f_E를 align 시킨다!!(L_align)
- 마지막으로 MLP인 Head_exo(f_E)와 one-hot encoding된 a^를 cross entropy loss 로 일치화시켜, action을 예측하는 Head_exo도 학습시킨다!(L_exo_cls)
- 이때 Visual Encoder도 Fine tuning 되어서 f_E출력에 affordance에 대한 이해가 반영되어있다
- 또한 기존 연구는 여러 exo 이미지를 사용했는데, 그게 장점이 있나 싶어 이 연구는 1개의 exo이미지만 사용했다.
- 그리고! 이때 같은 object가 있으면 더 좋으니 ego이미지의 object랑 가장 유사한 이미지를 골랐다!
3.5 PSEUDO LABELS 고도화하기
pretrain 단계: cross modal fuser를 학습시켜서 ego 이미지에서 M_ego_pred를 만들도록 한다. 이 M_ego_pred는 물체에서 exo 이미지 가려진 부분만 추출하게된다
- exo 이미지의 또다른 특징! 사람 몸에 의해서 object에 가려짐이 발생한다!
- Image(ego or Exo) > VLpart object 로 bbox만들어서 crop! > Enc_V`(DINO나 CLIP) > G(ego or exo) 추출!!
- G_ego, G_exo는 물체에 대한 이미지 벡터임!!
- 그다음, 3.4의 방법으로 M_exo_obj 를 만들수 있고 G_exo 해서 실제 물체 부분의 벡터를 추출, M~_exo_obj 가 된다.
- 한편, H_pred를 만드는거에 softmax를 sigmod로 바꾸어 M_ego_pred를 만들수 있다!
- 그래서!! 1 - M_ego_pred를 한다음(그럼 배경부분을 바뀜) bbox만 추출하면 M~_ego_obj가 된다
- 이제, M~_ego_obj, M~_exo_obj 를
Cross modal Fuser에 L_pretrain로스로 학습 일치화 하는 작업을 하면!- 이 뜻은 ego의 예측결과를 뺀 나머지 부분이! exo 사용이미지랑 같아진다! 즉 예측결과 부분은 가려진부분이 된다는것!
- 결국 I_ego >
Cross modal Fuser> M~_ego_pred 을 예측하게됨!! - 그런데 결과물 M~_ego_pred 이 명확히 물체를 나누지못하고 삐뚤뺴뚤 할 수 있으니, SAM과 비교해가며 추출한다.
3.6 Unseen 처리는!?
- AGD20K 에는 Unseen도 있는거알지? Unseen 이란 Seen에서 없던 object/action 조합이야!
- 예를들면 hold bottle 만 본적있는 상태인데 hold cup 을 물어봄!!
- 그래서
reasoning module이란걸 둬서 object 와 action의 관계를 파악! 절차는 아래와 같음
a. I_ego > Env_V > Transformer 결과물의 CLS토큰 추출 > c_V
b. MLP_noun에 c_V를 넣어서 f_pred_obj, 즉 object 예측
c. f_pred_obj 랑 action의 벡터 f_T를 바탕으로 MLP_part에 넣어서 f_pred_part 추출(Seen에서는 part name을 직접 작업했었지)
d. 그런다음 object part(p)의 인코딩 Enc_T(p)와 f_pred_part가 같도록, object의 인코딩 Enc_T(o)와 f_pred_obj가 같도록 하는 L_reason 을 나오도록해서 2개의 MLP 학습시킴!!최종 Loss는!?
L_all = L_KL + λ1 * (L_align + L_exo_cls) + λ2 * L_reason
- L_KL: cross modal fuser의 H_pred와 H_pl의 차이로스
- L_align : exo 이미지 사용하며, ego와 ego얼라인시키기
- L_exo_cls : exo 이미지 기반,
- L_reason : Unseen을 위한 action, object + part 학습 로스
🧪 실험 결과 및 Ablation
Ablation Test
- base에서도 성능이 많이 향상되었고!
- Refinement, pseudo label이 좋아짐에 따른 성능향상이 보였고,
- Unseen을 위한 reasoning에서 확실히 향상됨이 보였다.
최종 성능도 어마어마했다!!
✅ 결론
- WSAG-PLSP는 Part-Level + Semantic Propagation을 도입해 weak supervision 환경에서도 affordance localization 성능을 크게 개선
- 주요 기여:
- Part-level representation 학습으로 affordance 단위 세분화
- Semantic Propagation Module로 affordance 의미 확산
- 다양한 데이터셋에서 SOTA 수준 성능 입증
- → 로봇 지각, 인간-로봇 상호작용, AR/VR 응용에 유용 🎯