🐍 Reasoning Mamba: Hypergraph 기반 추론으로 Weakly Supervised Affordance Grounding 강화!
🐍 Reasoning Mamba: Hypergraph 기반 추론으로 Weakly Supervised Affordance Grounding 강화!
🐍 (한국어) Reasoning Mamba: Hypergraph + Mamba로 Affordance Grounding 문제 해결!
- 제목: Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding
- 학회: CVPR 2024
- 저자: Yuxuan Wang, Aming Wu, Muli Yang, Yukuan Min, Yihang Zhu, Cheng Deng (Xidian Univ. & A*STAR)
- 핵심 키워드:
Affordance
,Weakly-Supervised
,Hypergraph
,State-Space Model
,Mamba
,Robotics
- 요약: R-Mamba는 사물의 기능 단위(affordance)를 더 정확히 찾기 위해, 사물 부위 간 관계를 Hypergraph로 모델링하고, 이를 Mamba 기반 State-Space 모델로 전역적으로 재조직하는 새로운 접근을 제안. AGD20K, HICO-IIF 등에서 SOTA 성능 달성! 🚀
🚀 연구 핵심 요약
한 줄 요약: “R-Mamba = Hypergraph로 지역 관계 포착 + Mamba로 전역 추론 → Affordance Grounding 성능 업그레이드!”
1) 새 과제 배경 (WSAG)
- Weakly Supervised Affordance Grounding (WSAG): 픽셀 단위 라벨 없이, 이미지 수준 라벨만으로 affordance 영역(localization) 찾기
- 기존 방법: 단순 CAM 기반 → 사물의 복합적 부위 관계(예: 컵 손잡이 + 몸통 = 따르기)를 무시
2) R-Mamba 방법론
- Hypergraph Construction: 사물 부위(feature)를 vertex로 두고, 여러 부위를 동시에 연결하는 hyperedge 구성 → 다대다 관계 표현
- Hypergraph Evolution: 불필요한 연결 제거 + affordance 관련 부위 강화 (K-means, Gumbel Softmax)
- Hypergraph-guided State Space (HSS) Block: Hypergraph 특징을 Mamba 기반 selective scan으로 전역적 관계로 재조직
- Ego-HSS / Exo-HSS 모듈: egocentric / exocentric 이미지에서 추출한 affordance 관련 관계를 교차 학습
3) 최종 출력
- affordance heatmap을 통해 객체에서 어떤 부위가 “잡기, 따르기, 앉기” 등의 기능과 대응되는지 정확히 지역화
🔍 기존 연구의 한계와 차별점
- 기존 WSAG 연구:
- CAM 기반 활성화 맵 활용 → 단순 부분 강조
- Graph Neural Network(GNN) 기반 → 점-점 관계만 처리, 다대다 관계 표현 부족
- R-Mamba의 차별점:
- Hypergraph로 복수 부위 간 관계 포착
- Mamba 기반 State-Space 모델로 전역 시퀀스 스캔
- Egocentric–Exocentric 양방향 학습으로 일반화 능력 강화
🧱 R-Mamba 구조 (Architecture)
1) Hypergraph Construction
- DINO-ViT로 feature 추출 후, feature point → vertex, 인접 feature 묶음 → hyperedge
- vertex–hyperedge 변환으로 지역 관계 강화
2) Hypergraph Evolution
- K-means로 cluster center 기반 hyperedge 확장
- egocentric feature로 affordance 관련 vertex/edge 선택
- Gumbel Softmax로 불필요한 edge 제거
3) Hypergraph-guided State Space (HSS) Block
- Evo-hypergraph를 입력 받아 Mamba 기반 selective scan 적용
- 지역 관계(local)를 전역(global) 맥락에서 재조직
- Ego-HSS와 Exo-HSS로 양방향 학습
4) 출력 단계
- affordance heatmap + classification score 산출
- Loss: cross-entropy + cosine similarity + geometric concentration
🧪 실험 결과
데이터셋 & 지표
- AGD20K (seen/unseen split)
- HICO-IIF
- 평가 지표: KLD ↓, SIM ↑, NSS ↑
결과
- AGD20K-seen: KLD 1.173, SIM 0.414, NSS 1.247 (기존 LOCATE 대비 성능 향상)
- AGD20K-unseen: KLD 1.372, SIM 0.380, NSS 1.190
- HICO-IIF: 기존 모델 대비 성능 우수
정성적 비교 (Qualitative)
- 컵 손잡이, 칫솔 끝 등 작은 affordance 부위 정확히 탐지
- 배경 간섭 억제 및 unseen 객체에서도 일반화 잘 수행
🧪 Ablation 분석
- Distance Threshold (ε): 적절한 값(3)일 때 최고 성능, 너무 크면 배경 간섭 ↑
- Cluster Number (k): 5~7 범위에서 안정적 성능
- Loss Function: cosine similarity loss (L_sim) + geometric concentration loss (L_gc) 조합이 가장 효과적
- Component Ablation: Hypergraph, HSS, Evolution 제거 시 모두 성능 하락 → 각 모듈 기여 확인
✅ 결론
- R-Mamba는 Hypergraph + Mamba 결합으로 affordance localization을 크게 향상
- 주요 기여:
- Hypergraph로 다대다 부위 관계 포착
- HSS block으로 지역 관계를 전역적 관점에서 재구성
- 다양한 데이터셋에서 SOTA 수준 성능 달성
- → 로봇 지각, 인간-로봇 상호작용(HOI), AR/VR 등 실세계 응용에 중요한 기여 🎯
This post is licensed under CC BY 4.0 by the author.