๐ WSAG-PLSP: Weakly Supervised ํ์ต์ ํตํ Affordance Grounding ๋ฌธ์ ํด๊ฒฐ!
๐ (ํ๊ตญ์ด) WSAG-PLSP: Part-Level Semantic Propagation์ผ๋ก Affordance Grounding ๋ฌธ์ ํด๊ฒฐ!
- ์ ๋ชฉ: WSAG-PLSP: Part-Level Semantic Propagation for Weakly Supervised Affordance Grounding
- ํํ: ICLR 2025
- ์ฝ๋/์ฒดํฌํฌ์ธํธ: GitHub โ WSAG-PLSP
- ์ ์: Peiran Xu, Yadong Mu(Peking University)
- ํต์ฌ ํค์๋:
Affordance
,Weakly-Supervised
,Part-Level
,Semantic Propagation
,Vision-Language
- ์์ฝ: WSAG-PLSP๋ ์ด๋ฏธ์ง ์์ค ๋ผ๋ฒจ๋ง ์ด์ฉํด affordance๋ฅผ ํ์ตํ๋ Weakly Supervised Affordance Grounding (WSAG) ๋ฌธ์ ์์, ๋ถ์ ๋จ์(Part-Level) ์๋ฏธ ์ ํ(PLSP)๋ฅผ ํตํด affordance ์์น๋ฅผ ๋์ฑ ์ ๋ฐํ๊ฒ ์ฐพ์๋ด๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์. AGD20K, UMD, IIT-AFF ๋ฑ ๋ฐ์ดํฐ์ ์์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ ๐
๐ ์ฐ๊ตฌ ํต์ฌ ์์ฝ
ํ ์ค ์์ฝ: โWSAG-PLSP = Pseudo label์ ๋ง๋ค๊ณ ํ๋ฒ ๋ ์ ์ ํ๋ฉฐ, Exo ์ด๋ฏธ์ง์ ํจ๊ป Transformer๋ก supervised ํ๊ฒ ํ์ต์ํจ๋ค!โ
1) ์ ๊ณผ์ ๋ฐฐ๊ฒฝ (WSAG)
- Weakly Supervised Affordance Grounding: ํฝ์ ๋จ์ ๋ ์ด๋ธ ์์ด affordance ์ง์ญ(localization) ํ์ต
- ๊ธฐ์กด CAM ๊ธฐ๋ฐ ์ ๊ทผ์ ๋จ์ ๋ถ๋ถ ๊ฐ์กฐ์ ๊ทธ์ณ affordance๊ฐ ํ์ฑ๋๋ ์ธ๋ถ ๋ถ์ ๊ฐ ์๋ฏธ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํจ
2) WSAG-PLSP ๋ฐฉ๋ฒ๋ก
โ Pseudo Label ๋ง๋ค๊ธฐ : ์์
๋ object part prompt(p) ๋ฅผ VLpart + SAM์ ํตํด Label๋ก ์ ์
โก Refine Label : exo์ ๊ฒน์นจํ์์ด ๋ฐ์ํ๋ ๊ฐ๋
์์ ์ฐฉ์, ์ผ๋ถ๋ Pretrained Label ์ ์
โข Supervised Baseline : Cross modal fuser(transformer) ๊ตฌ์กฐ๋ก Label์ ํ์ต
โฃ Exo ์ด๋ฏธ์ง ํ์ฉ: ๊ฐ์ฅ ์ ์ฌํ 1๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ฐํ์ผ๋ก Align
3) ์ต์ข ์ถ๋ ฅ
- affordance heatmap (ํฝ์ ๋จ์)
- object๋ณ affordance presence score
๐ ๊ธฐ์กด์ ๊ด๋ จ ์ฐ๊ตฌ๋ค!
- Affordance ๋ผ๋ ๊ฐ๋
์ ๋ฑ์ฅ! : 1977๋
, ์ฌ๋ฆฌํ ๊ด์ ์์ Gibson์ด ์ ์ํ ๊ฐ๋
!!
- ์ต๊ทผ์๋ ๋ก๋ด์ ์ ์ฉํ AI๋ก์ ๋ง์ด ์ฐ๊ตฌ๋จ!
- Fully supervised : ์ด๊ธฐ์๋ ์์ ์ง๋ํ์ต์ผ๋ก ์ฐ๊ตฌ!!
- ๋์ ์ฑ๋ฅ, ํ์ง๋ง ๋ผ๋ฒจ๋ง ๋น์ฉยท์ฃผ๊ด์ฑ ๋ฌธ์ ๋ก ํด๋์ค ๋ค์์ฑ ๋ถ์กฑ (Myers et al., 2015; Nguyen et al., 2017).
- Weakly Supervised ๊ด์ ์ ์ฐ๊ตฌ๋ค์ด ๋ฑ์ฅํจ: ์ด๋ฏธ์ง ์์ค ๋ผ๋ฒจ(+ exo-centric์ด๋ฏธ์ง)๋ง ์ ๊ณตํ๊ณ ์์ธกํ๊ธฐ!
- ๊ธฐ์กด ๋ฐฉ๋ฒ(CROSS-VIEW-AG, LOCATE, WSMA)๋ค์ ๋๋ถ๋ถ CAM ๊ธฐ๋ฐ์ผ๋ก affordance ๋ถ๋ฅ, ๊ทธ๋ฐ๋ฐ CAM์ ๋๋๋ฌ์ง ๋ถ๋ถ๋ง ๊ฐ์กฐํด affordance ์ ์์ญ ํฌ์ฐฉ์ด ์ด๋ ต๋ค๋ ๋จ์ ์ด ์กด์ฌ.
- ๋ํ exocentric images ํ์ฉ์์๋, ๊ธฐ์กด ๋ฐฉ์๋ค์ ๊ธ๋ก๋ฒ ํ๋ง(CROSS-VIEW-AG)/๋ง์คํน ํ๋ง(LOCATE) ๋ฐฉ์์ด๋ผ ๋ ธ์ด์ฆ ์ ์ ๊ฐ๋ฅ
- Visual Foundation Models (VFM)๊ณผ Multi-modal LLMs (MLLMs)์ ๋ฐ์
- SAM, CLIP, VL-part๋ฑ ์ฌ๋ ค ์ฐ๊ตฌ๊ฐ ์์ด์๊ณ ์ฑ๋ฅ๋ ์ข๋ค!
- ์ด๋ค์ ํตํด ์ ๋ก์ท์ผ๋ก ๊ณ ํ์ง dense annotation ๊ฐ๋ฅ
(์ฐธ๊ณ ) ๊ฐ ์ฐ๊ตฌ๋ณ reference
- CROSS-VIEW-AG : Luo, Hongchen, et al. โLearning affordance grounding from exocentric images.โ Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
- LOCATE : Li, Gen, et al. โLocate: Localize and transfer object parts for weakly supervised affordance grounding.โ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
- WSMA : Xu, Lingjing, et al. โWeakly supervised multimodal affordance grounding for egocentric images.โ Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 6. 2024.
๐ ๋ณธ ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ๋ก !!!
3.2 ๋ชจ๋ธ Architecture
- Enc_V : ์ด๋ฏธ์ง ์ธ์ฝ๋ฉ. ์ด๋ฏธ์ง I๋ฅผ ์ธ์ฝ๋ฉํ์ฌ F_V๋ก ๋ณํ
- Enc_T : ํ ์คํธ ์ธ์ฝ๋ฉ. afforance query(a)๋ฅผ ๋ฒกํฐ f_T๋ก ๋ณํ(CLIP๊ธฐ๋ฐ)
- Cross Modal Fuser: f_T๋ F_V๋ฅผ ๋ฐํ์ผ๋ก ํตํฉ๋ affordance grounding ์ ๋ณด ๋ฒกํฐ f_A ์์ฑ(Transformer ๋ธ๋ก ๊ธฐ๋ฐ cross-attention (query = f_T, key/value = F_V))
- Dec : F_V์ f_A๋ฅผ ๋ฐํ์ผ๋ก ๋์ฝ๋ฉํ์ฌ ์ต์ข ํํธ๋งต H_pred ์์ฑ(SAM ๊ธฐ๋ฐ)
3.3 PSEUDO LABELS(H_pl) ๋ง๋ค๊ธฐ
- ๋ณธ ์ฐ๊ตฌ์ ์ค์ํ์ ์, VLM์ ํ์ฉํ์ฌ ego์ด๋ฏธ์ง์ ๋ํ pseudo label(H_pl)์ ๋ง๋ค์ด์ supervised ๋ฐฉ์์ผ๋ก ํ์ตํ๋๊ฒ!!
- 2 step์ผ๋ก ์ด๋ฃจ์ด์ง
Step1) part name(p) ๋ง๋ค๊ธฐ!
- ์ง๊ธ์ affordance ๋ ๋ชจ๋ action(verb)์ด๊ธฐ์, ๊ธฐ์กด VLM์ด ์ํ๋ ๋ช ์ฌ ์์ธก๊ณผ๋ ์ฐจ์ด๊ฐ ์๋ค.
- ํํธ ์ฃผ์ด์ง ๊ฐ์ฑ(o)์ affordance๋ ๊ฐ์ฒด์ ์ผ๋ถ๋ถ์ด๋ค!
- ๊ทธ๋์! P(o,a) ๋ก ๊ฐ์ฑ์ ๋ถ๋ถ๋ช ์ฌ๋ฅผ ์ถ์ถํ ์ ์๊ฒํจ (ex. P(knife, hold) = handle of the knife)
- ์ด๋ ํจ์ P๋ LLM์ ํ์ฉํ ์๋ ์์ผ๋ฉฐ ์ด ์ฐ๊ตฌ๋ ์์์ ์ผ๋ก!!
Step2)ํ์ต๋์์ธ H_pl ๋ง๋ค๊ธฐ
- VLpart๋ผ๋ ๋ชจ๋ธ์ ํ์ฉ, p๋ฅผ ๋ฐํ์ผ๋ก bbox๋ฅผ ๋ง๋ค๊ณ ,
- SAM์ผ๋ก bbox๋ด์ segmentation ์งํ!! mask์ธ M_ego_part ์ถ์ถ!
- M_ego_part๋ฅผ ๋ณํํด์ heatmapํ์์ H_pl์ ๋ง๋ค๊ณ , ์ฐ๋ฆฌ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ H_pred์ ๊ฐ ๋น๊ต!
๋ค๋ง!) VLpart ๊ฐ ์ญํ ์ ์ ๋ชปํ๋ ๋ฌธ์ , ํน์ ๋ช ํํ p๋ฅผ ๋ง๋ค์ ์๋ ๋ฌธ์ ๊ฐ ์์!!
- ์ด๋ก์ธํด H_pl์ ์ ํ๋๊ฐ ๋ฎ์์ง๋๋ฌธ์ ๊ฐ ์์ด!!
3.4 EXOCENTRIC ์ด๋ฏธ์ง ํ์ฉํ๊ธฐ!
- ์ง๊ธ๊น์ง๋ ego๋ง ์ผ๋ค!
- Exo-centric ์ด๋ฏธ์ง(I_exo) > Enc_V > F_exo_V
- I_ego > Enc_V > F_ego_V
- ์ด F_ego_V, F_exo_V ๋ฅผ GAPํ์ฌ object action ์ ํน์ง์ ์ถ์ถํ๋ฉด!! ๋ฐฐ๊ฒฝ์ด๋ผ๋์ง ์ก์์ด ๋ค์ด๊ฐ๋ค!
- ๊ทธ๋์, ๋ค์ VLpart, SAM์ด ๋ฑ์ฅํ๋ค!.
- I_exo > VLpart with object > SAM > M_exo_obj
- M_exo_obj ๋ F_exo_B๋ฅผ average-pooling ํด์ f_E ๊ตฌํ๊ณ ( ์ด๋ฏธ์ง์์์ object ๋ฒกํฐ),
- Cross Modal Fuser์ ๊ฒฐ๊ณผ๋ฌผ์ธ f_A์ f_E๋ฅผ align ์ํจ๋ค!!(L_align)
- ๋ง์ง๋ง์ผ๋ก MLP์ธ Head_exo(f_E)์ one-hot encoding๋ a^๋ฅผ cross entropy loss ๋ก ์ผ์นํ์์ผ, action์ ์์ธกํ๋ Head_exo๋ ํ์ต์ํจ๋ค!(L_exo_cls)
- ์ด๋ Visual Encoder๋ Fine tuning ๋์ด์ f_E์ถ๋ ฅ์ affordance์ ๋ํ ์ดํด๊ฐ ๋ฐ์๋์ด์๋ค
- ๋ํ ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฌ๋ฌ exo ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋๋ฐ, ๊ทธ๊ฒ ์ฅ์ ์ด ์๋ ์ถ์ด ์ด ์ฐ๊ตฌ๋ 1๊ฐ์ exo์ด๋ฏธ์ง๋ง ์ฌ์ฉํ๋ค.
- ๊ทธ๋ฆฌ๊ณ ! ์ด๋ ๊ฐ์ object๊ฐ ์์ผ๋ฉด ๋ ์ข์ผ๋ ego์ด๋ฏธ์ง์ object๋ ๊ฐ์ฅ ์ ์ฌํ ์ด๋ฏธ์ง๋ฅผ ๊ณจ๋๋ค!
3.5 PSEUDO LABELS ๊ณ ๋ํํ๊ธฐ
pretrain ๋จ๊ณ: cross modal fuser๋ฅผ ํ์ต์์ผ์ ego ์ด๋ฏธ์ง์์ M_ego_pred๋ฅผ ๋ง๋ค๋๋ก ํ๋ค. ์ด M_ego_pred๋ ๋ฌผ์ฒด์์ exo ์ด๋ฏธ์ง ๊ฐ๋ ค์ง ๋ถ๋ถ๋ง ์ถ์ถํ๊ฒ๋๋ค
- exo ์ด๋ฏธ์ง์ ๋๋ค๋ฅธ ํน์ง! ์ฌ๋ ๋ชธ์ ์ํด์ object์ ๊ฐ๋ ค์ง์ด ๋ฐ์ํ๋ค!
- Image(ego or Exo) > VLpart object ๋ก bbox๋ง๋ค์ด์ crop! > Enc_V`(DINO๋ CLIP) > G(ego or exo) ์ถ์ถ!!
- G_ego, G_exo๋ ๋ฌผ์ฒด์ ๋ํ ์ด๋ฏธ์ง ๋ฒกํฐ์!!
- ๊ทธ๋ค์, 3.4์ ๋ฐฉ๋ฒ์ผ๋ก M_exo_obj ๋ฅผ ๋ง๋ค์ ์๊ณ G_exo ํด์ ์ค์ ๋ฌผ์ฒด ๋ถ๋ถ์ ๋ฒกํฐ๋ฅผ ์ถ์ถ, M~_exo_obj ๊ฐ ๋๋ค.
- ํํธ, H_pred๋ฅผ ๋ง๋๋๊ฑฐ์ softmax๋ฅผ sigmod๋ก ๋ฐ๊พธ์ด M_ego_pred๋ฅผ ๋ง๋ค์ ์๋ค!
- ๊ทธ๋์!! 1 - M_ego_pred๋ฅผ ํ๋ค์(๊ทธ๋ผ ๋ฐฐ๊ฒฝ๋ถ๋ถ์ ๋ฐ๋) bbox๋ง ์ถ์ถํ๋ฉด M~_ego_obj๊ฐ ๋๋ค
- ์ด์ , M~_ego_obj, M~_exo_obj ๋ฅผ
Cross modal Fuser
์ L_pretrain๋ก์ค๋ก ํ์ต ์ผ์นํ ํ๋ ์์ ์ ํ๋ฉด!- ์ด ๋ป์ ego์ ์์ธก๊ฒฐ๊ณผ๋ฅผ ๋บ ๋๋จธ์ง ๋ถ๋ถ์ด! exo ์ฌ์ฉ์ด๋ฏธ์ง๋ ๊ฐ์์ง๋ค! ์ฆ ์์ธก๊ฒฐ๊ณผ ๋ถ๋ถ์ ๊ฐ๋ ค์ง๋ถ๋ถ์ด ๋๋ค๋๊ฒ!
- ๊ฒฐ๊ตญ I_ego >
Cross modal Fuser
> M~_ego_pred ์ ์์ธกํ๊ฒ๋จ!! - ๊ทธ๋ฐ๋ฐ ๊ฒฐ๊ณผ๋ฌผ M~_ego_pred ์ด ๋ช ํํ ๋ฌผ์ฒด๋ฅผ ๋๋์ง๋ชปํ๊ณ ์๋ค๋บด๋ค ํ ์ ์์ผ๋, SAM๊ณผ ๋น๊ตํด๊ฐ๋ฉฐ ์ถ์ถํ๋ค.
3.6 Unseen ์ฒ๋ฆฌ๋!?
- AGD20K ์๋ Unseen๋ ์๋๊ฑฐ์์ง? Unseen ์ด๋ Seen์์ ์๋ object/action ์กฐํฉ์ด์ผ!
- ์๋ฅผ๋ค๋ฉด hold bottle ๋ง ๋ณธ์ ์๋ ์ํ์ธ๋ฐ hold cup ์ ๋ฌผ์ด๋ด!!
- ๊ทธ๋์
reasoning module
์ด๋๊ฑธ ๋ฌ์ object ์ action์ ๊ด๊ณ๋ฅผ ํ์ ! ์ ์ฐจ๋ ์๋์ ๊ฐ์
a. I_ego > Env_V > Transformer ๊ฒฐ๊ณผ๋ฌผ์ CLSํ ํฐ ์ถ์ถ > c_V
b. MLP_noun์ c_V๋ฅผ ๋ฃ์ด์ f_pred_obj, ์ฆ object ์์ธก
c. f_pred_obj ๋ action์ ๋ฒกํฐ f_T๋ฅผ ๋ฐํ์ผ๋ก MLP_part์ ๋ฃ์ด์ f_pred_part ์ถ์ถ(Seen์์๋ part name์ ์ง์ ์์ ํ์์ง)
d. ๊ทธ๋ฐ๋ค์ object part(p)์ ์ธ์ฝ๋ฉ Enc_T(p)์ f_pred_part๊ฐ ๊ฐ๋๋ก, object์ ์ธ์ฝ๋ฉ Enc_T(o)์ f_pred_obj๊ฐ ๊ฐ๋๋ก ํ๋ L_reason ์ ๋์ค๋๋กํด์ 2๊ฐ์ MLP ํ์ต์ํด!!์ต์ข Loss๋!?
L_all = L_KL + ฮป1(L_align + L_exo_cls) + ฮป2L_reason
- L_KL: cross modal fuser์ H_pred์ H_pl์ ์ฐจ์ด๋ก์ค
- L_align : exo ์ด๋ฏธ์ง ์ฌ์ฉํ๋ฉฐ, ego์ ego์ผ๋ผ์ธ์ํค๊ธฐ
- L_exo_cls : exo ์ด๋ฏธ์ง ๊ธฐ๋ฐ,
- L_reason : Unseen์ ์ํ action, object + part ํ์ต ๋ก์ค
๐งช ์คํ ๊ฒฐ๊ณผ ๋ฐ Ablation
Ablation Test
- base์์๋ ์ฑ๋ฅ์ด ๋ง์ด ํฅ์๋์๊ณ !
- Refinement, pseudo label์ด ์ข์์ง์ ๋ฐ๋ฅธ ์ฑ๋ฅํฅ์์ด ๋ณด์๊ณ ,
- Unseen์ ์ํ reasoning์์ ํ์คํ ํฅ์๋จ์ด ๋ณด์๋ค.
์ต์ข ์ฑ๋ฅ๋ ์ด๋ง์ด๋งํ๋ค!!
โ ๊ฒฐ๋ก
- WSAG-PLSP๋ Part-Level + Semantic Propagation์ ๋์ ํด weak supervision ํ๊ฒฝ์์๋ affordance localization ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์
- ์ฃผ์ ๊ธฐ์ฌ:
- Part-level representation ํ์ต์ผ๋ก affordance ๋จ์ ์ธ๋ถํ
- Semantic Propagation Module๋ก affordance ์๋ฏธ ํ์ฐ
- ๋ค์ํ ๋ฐ์ดํฐ์ ์์ SOTA ์์ค ์ฑ๋ฅ ์ ์ฆ
- โ ๋ก๋ด ์ง๊ฐ, ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ, AR/VR ์์ฉ์ ์ ์ฉ ๐ฏ