Post

🔍 WSAG-PLSP: Weakly Supervised 학습을 통한 Affordance Grounding 문제해결!

🔍 WSAG-PLSP: Weakly Supervised 학습을 통한 Affordance Grounding 문제해결!

🔍 (한국어) WSAG-PLSP: Part-Level Semantic Propagation으로 Affordance Grounding 문제 해결!

Image

  • 제목: WSAG-PLSP: Part-Level Semantic Propagation for Weakly Supervised Affordance Grounding
  • 학회: ICLR 2025
  • 코드/체크포인트: GitHub – WSAG-PLSP
  • 저자: Peiran Xu, Yadong Mu(Peking University)
  • 핵심 키워드: Affordance, Weakly-Supervised, Part-Level, Semantic Propagation, Vision-Language
  • 요약: WSAG-PLSP는 이미지 수준 라벨만 이용해 affordance를 학습하는 Weakly Supervised Affordance Grounding (WSAG) 문제에서, 부위 단위(Part-Level) 의미 전파(PLSP)를 통해 affordance 위치를 더욱 정밀하게 찾아내는 새로운 프레임워크를 제안. AGD20K, UMD, IIT-AFF 등 데이터셋에서 SOTA 성능 달성 🚀

🚀 연구 핵심 요약

한 줄 요약: “WSAG-PLSP = Pseudo label을 만들고 한번 더 정제하며, Exo 이미지와 함께 Transformer로 supervised 하게 학습시킨다!”

Image

1) 새 과제 배경 (WSAG)

  • Weakly Supervised Affordance Grounding: 픽셀 단위 레이블 없이 affordance 지역(localization) 학습
  • 기존 CAM 기반 접근은 단순 부분 강조에 그쳐 affordance가 형성되는 세부 부위 간 의미 관계를 포착하지 못함

2) WSAG-PLSP 방법론
① Pseudo Label 만들기 : 작업된 object part prompt(p) 를 VLpart + SAM을 통해 Label로 제작
② Refine Label : exo의 겹침현상이 발생하는 개념에서 착안, 일부는 Pretrained Label 제작
③ Supervised Baseline : Cross modal fuser(transformer) 구조로 Label을 학습
④ Exo 이미지 활용: 가장 유사한 1개 이미지를 바탕으로 Align

3) 최종 출력

  • affordance heatmap (픽셀 단위)
  • object별 affordance presence score

🔍 기존의 관련 연구들!

  1. Affordance 라는 개념의 등장! : 1977년, 심리학 관점에서 Gibson이 제안한 개념!!
    • 최근에는 로봇에 적용한 AI로서 많이 연구됨!
  2. Fully supervised : 초기에는 완전 지도학습으로 연구!!
    • 높은 성능, 하지만 라벨링 비용·주관성 문제로 클래스 다양성 부족 (Myers et al., 2015; Nguyen et al., 2017).
  3. Weakly Supervised 관점의 연구들이 등장함: 이미지 수준 라벨(+ exo-centric이미지)만 제공하고 예측하기!
    • 기존 방법(CROSS-VIEW-AG, LOCATE, WSMA)들은 대부분 CAM 기반으로 affordance 분류, 그런데 CAM은 두드러진 부분만 강조해 affordance 전 영역 포착이 어렵다는 단점이 존재.
    • 또한 exocentric images 활용에서도, 기존 방식들은 글로벌 풀링(CROSS-VIEW-AG)/마스킹 풀링(LOCATE) 방식이라 노이즈 유입 가능
  4. Visual Foundation Models (VFM)Multi-modal LLMs (MLLMs)의 발전
    • SAM, CLIP, VL-part등 여려 연구가 있어왔고 성능도 좋다!
    • 이들을 통해 제로샷으로 고품질 dense annotation 가능

(참고) 각 연구별 reference

  • CROSS-VIEW-AG : Luo, Hongchen, et al. “Learning affordance grounding from exocentric images.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
  • LOCATE : Li, Gen, et al. “Locate: Localize and transfer object parts for weakly supervised affordance grounding.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
  • WSMA : Xu, Lingjing, et al. “Weakly supervised multimodal affordance grounding for egocentric images.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 6. 2024.

🔍 본 연구의 방법론!!!

3.2 모델 Architecture

Image

  • Enc_V : 이미지 인코딩. 이미지 I를 인코딩하여 F_V로 변환
  • Enc_T : 텍스트 인코딩. afforance query(a)를 벡터 f_T로 변환(CLIP기반)
  • Cross Modal Fuser: f_T랑 F_V를 바탕으로 통합된 affordance grounding 정보 벡터 f_A 생성(Transformer 블록 기반 cross-attention (query = f_T, key/value = F_V))
  • Dec : F_V와 f_A를 바탕으로 디코딩하여 최종 히트맵 H_pred 생성(SAM 기반)

3.3 PSEUDO LABELS(H_pl) 만들기

  • 본 연구의 중요한점은, VLM을 활용하여 ego이미지에 대한 pseudo label(H_pl)을 만들어서 supervised 방식으로 학습하는것!!
  • 2 step으로 이루어짐

Image

Step1) part name(p) 만들기!

  • 지금의 affordance 는 모두 action(verb)이기에, 기존 VLM이 잘하는 명사 예측과는 차이가 있다.
  • 한편 주어진 객채(o)의 affordance는 객체의 일부분이다!
  • 그래서! P(o,a) 로 객채의 부분명사를 추출할수 있게함 (ex. P(knife, hold) = handle of the knife)
  • 이때 함수 P는 LLM을 활용할수도 있으며 이 연구는 수작업으로!!

Step2)학습대상인 H_pl 만들기

  • VLpart라는 모델을 활용, p를 바탕으로 bbox를 만들고,
  • SAM으로 bbox내의 segmentation 진행!! mask인 M_ego_part 추출!
  • M_ego_part를 변환해서 heatmap형식의 H_pl을 만들고, 우리 모델의 결과 H_pred와 값 비교!

다만!) VLpart 가 역할을 잘 못하는 문제, 혹은 명확한 p를 만들수 없는 문제가 있음!!

  • 이로인해 H_pl의 정확도가 낮아지는문제가 있어!!

3.4 EXOCENTRIC 이미지 활용하기!

Image

  • 지금까지는 ego만 썼다!
  • Exo-centric 이미지(I_exo) > Enc_V > F_exo_V
  • I_ego > Enc_V > F_ego_V
  • 이 F_ego_V, F_exo_V 를 GAP하여 object action 의 특징을 추출하면!! 배경이라던지 잡음이 들어간다!
  • 그래서, 다시 VLpart, SAM이 등장한다!.
    • I_exo > VLpart with object > SAM > M_exo_obj
    • M_exo_obj 랑 F_exo_B를 average-pooling 해서 f_E 구하고( 이미지에서의 object 벡터),
    • Cross Modal Fuser의 결과물인 f_A와 f_E를 align 시킨다!!(L_align)
    • 마지막으로 MLP인 Head_exo(f_E)와 one-hot encoding된 a^를 cross entropy loss 로 일치화시켜, action을 예측하는 Head_exo도 학습시킨다!(L_exo_cls)
    • 이때 Visual Encoder도 Fine tuning 되어서 f_E출력에 affordance에 대한 이해가 반영되어있다
  • 또한 기존 연구는 여러 exo 이미지를 사용했는데, 그게 장점이 있나 싶어 이 연구는 1개의 exo이미지만 사용했다.
    • 그리고! 이때 같은 object가 있으면 더 좋으니 ego이미지의 object랑 가장 유사한 이미지를 골랐다!

3.5 PSEUDO LABELS 고도화하기

pretrain 단계: cross modal fuser를 학습시켜서 ego 이미지에서 M_ego_pred를 만들도록 한다. 이 M_ego_pred는 물체에서 exo 이미지 가려진 부분만 추출하게된다

  • exo 이미지의 또다른 특징! 사람 몸에 의해서 object에 가려짐이 발생한다!
  • Image(ego or Exo) > VLpart object 로 bbox만들어서 crop! > Enc_V`(DINO나 CLIP) > G(ego or exo) 추출!!
  • G_ego, G_exo는 물체에 대한 이미지 벡터임!!
  • 그다음, 3.4의 방법으로 M_exo_obj 를 만들수 있고 G_exo 해서 실제 물체 부분의 벡터를 추출, M~_exo_obj 가 된다.
  • 한편, H_pred를 만드는거에 softmax를 sigmod로 바꾸어 M_ego_pred를 만들수 있다!
    • 그래서!! 1 - M_ego_pred를 한다음(그럼 배경부분을 바뀜) bbox만 추출하면 M~_ego_obj가 된다
  • 이제, M~_ego_obj, M~_exo_obj 를 Cross modal Fuser에 L_pretrain로스로 학습 일치화 하는 작업을 하면!
    • 이 뜻은 ego의 예측결과를 뺀 나머지 부분이! exo 사용이미지랑 같아진다! 즉 예측결과 부분은 가려진부분이 된다는것!
  • 결국 I_ego > Cross modal Fuser > M~_ego_pred 을 예측하게됨!!
  • 그런데 결과물 M~_ego_pred 이 명확히 물체를 나누지못하고 삐뚤뺴뚤 할 수 있으니, SAM과 비교해가며 추출한다.

3.6 Unseen 처리는!?

  • AGD20K 에는 Unseen도 있는거알지? Unseen 이란 Seen에서 없던 object/action 조합이야!
    • 예를들면 hold bottle 만 본적있는 상태인데 hold cup 을 물어봄!!
  • 그래서 reasoning module 이란걸 둬서 object 와 action의 관계를 파악!
  • 절차는 아래와 같음
    a. I_ego > Env_V > Transformer 결과물의 CLS토큰 추출 > c_V
    b. MLP_noun에 c_V를 넣어서 f_pred_obj, 즉 object 예측
    c. f_pred_obj 랑 action의 벡터 f_T를 바탕으로 MLP_part에 넣어서 f_pred_part 추출(Seen에서는 part name을 직접 작업했었지)
    d. 그런다음 object part(p)의 인코딩 Enc_T(p)와 f_pred_part가 같도록, object의 인코딩 Enc_T(o)와 f_pred_obj가 같도록 하는 L_reason 을 나오도록해서 2개의 MLP 학습시킴!!

    최종 Loss는!?

    L_all = L_KL + λ1 * (L_align + L_exo_cls) + λ2 * L_reason

    • L_KL: cross modal fuser의 H_pred와 H_pl의 차이로스
    • L_align : exo 이미지 사용하며, ego와 ego얼라인시키기
    • L_exo_cls : exo 이미지 기반,
    • L_reason : Unseen을 위한 action, object + part 학습 로스

🧪 실험 결과 및 Ablation

Ablation Test

Image

  • base에서도 성능이 많이 향상되었고!
  • Refinement, pseudo label이 좋아짐에 따른 성능향상이 보였고,
  • Unseen을 위한 reasoning에서 확실히 향상됨이 보였다.

Image

최종 성능도 어마어마했다!!


✅ 결론

  • WSAG-PLSP는 Part-Level + Semantic Propagation을 도입해 weak supervision 환경에서도 affordance localization 성능을 크게 개선
  • 주요 기여:
    1. Part-level representation 학습으로 affordance 단위 세분화
    2. Semantic Propagation Module로 affordance 의미 확산
    3. 다양한 데이터셋에서 SOTA 수준 성능 입증
  • → 로봇 지각, 인간-로봇 상호작용, AR/VR 응용에 유용 🎯

This post is licensed under CC BY 4.0 by the author.