๐ฅ GroupHOI: Human-Object Interaction์ Group์ผ๋ก ํ์ตํ๊ธฐ (NeurIPS 2025)
๐ฅ GroupHOI: Learning Human-Object Interaction as Groups ๋ ผ๋ฌธ ์ฝ๊ธฐ!
- ์ ๋ชฉ: Learning Human-Object Interaction as Groups
- ํ๋ก์ ํธ: https://github.com/JiajunHong1/GroupHOI
- ์ ์: Jiajun Hong, Jianan Wei, Wenguan Wang
- ์์: Zhejiang University
- ๋ฐํ: NeurIPS 2025
README citation ๊ธฐ์ค: The Thirty-ninth Annual Conference on Neural Information Processing Systems - ํต์ฌ ํค์๋: Human-Object Interaction Detection, Group-based HOI Learning, DETR, CLIP, HICO-DET, V-COCO
- ํ ์ค ์์ฝ: HOI Detection์ ๋จ์ํ human-object pair ๋ถ๋ฅ ๋ฌธ์ ๊ฐ ์๋๋ผ, ์ด๋ฏธ์ง ์์์ ํจ๊ป ์ํธ์์ฉํ๋ ์ฌ๋๊ณผ ๊ฐ์ฒด๋ค์ group ๊ตฌ์กฐ๋ก ํ์ตํ๋ ๋ฐฉํฅ์ ์ ์ํ๋ค!! ๐
๐๏ธ ์ด๋์์ ๋ฐํ๋ ์ฐ๊ตฌ์ธ๊ฐ?
GroupHOI๋ GitHub README์ citation ๊ธฐ์ค์ผ๋ก NeurIPS 2025์ ๋ฐํ๋ ์ฐ๊ตฌ๋ค.
NeurIPS๋ ๋จธ์ ๋ฌ๋๊ณผ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์์ ๊ฐ์ฅ ์ํฅ๋ ฅ์ด ํฐ ํํ ์ค ํ๋๋ค.
์ด ๋
ผ๋ฌธ์ Human-Object Interaction Detection, ์ค์ฌ์ HOI Detection ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
GitHub ์ ์ฅ์๋ฅผ ๋ณด๋ฉด ๋ค์ ํน์ง์ ํ์ธํ ์ ์๋ค.
- HICO-DET, V-COCO ํ๊ฐ ์ง์
- DETR ResNet-50 pretrained detector ์ฌ์ฉ
- CLIP ์ค์น ๋ฐ ์ฌ์ฉ ํ์
with_clip_label,with_obj_clip_label์ต์ ์ฌ์ฉ- PPDM, DETR, QPIC, CDN, GEN-VLKT ์ฝ๋ ๊ธฐ๋ฐ ์ผ๋ถ ํ์ฉ
- HICO-DET์ V-COCO pretrained model ๋ฐ config ์ ๊ณต
์ฆ, GroupHOI๋ ๊ธฐ์กด HOI detection ๊ณ์ด ์ฐ๊ตฌ ํ๋ฆ ์์์,
์ฌ๋-๊ฐ์ฒด ์ํธ์์ฉ์ group์ด๋ผ๋ ๊ด์ ์ผ๋ก ์ฌํด์ํ๋ ค๋ ์ฐ๊ตฌ๋ผ๊ณ ๋ณผ ์ ์๋ค.
๐ ์ฐ๊ตฌ ํต์ฌ ์์ฝ
ํ ์ค ์์ฝ: โ์ฌ๋-๊ฐ์ฒด ์ํธ์์ฉ์ pair ๋จ์๋ก๋ง ๋ณด์ง ๋ง๊ณ , interaction์ด ๋ฐ์ํ๋ group ๋จ์๋ก ์ดํดํ์!โ
Human-Object Interaction Detection, ์ฆ HOI Detection์ ์ด๋ฏธ์ง ์์์ ์ฌ๋์ด ์ด๋ค ๊ฐ์ฒด์ ์ด๋ค ํ๋์ ํ๋์ง ์ฐพ๋ ๋ฌธ์ ๋ค.
์ผ๋ฐ์ ์ธ ์ถ๋ ฅ์ ๋ค์๊ณผ ๊ฐ์ triplet ํํ๋ค.
<person, ride, bicycle><person, hold, cup><person, eat, sandwich><person, sit on, chair><person, carry, backpack>
๊ธฐ์กด HOI Detection์ ๋์ฒด๋ก ๋ค์ ํ๋ฆ์ ๋ฐ๋ฅธ๋ค.
- ์ด๋ฏธ์ง์์ ์ฌ๋๊ณผ ๊ฐ์ฒด๋ฅผ ์ฐพ๋๋ค.
- ๊ฐ๋ฅํ human-object pair๋ฅผ ๋ง๋ ๋ค.
- ๊ฐ pair๊ฐ ์ด๋ค interaction verb๋ฅผ ๊ฐ์ง๋์ง ์์ธกํ๋ค.
- ์ต์ข
์ ์ผ๋ก
<human, verb, object>triplet์ ์ถ๋ ฅํ๋ค.
ํ์ง๋ง GroupHOI๋ ์ ๋ชฉ ๊ทธ๋๋ก ์ฌ๊ธฐ์ ํ ๊ฑธ์ ๋ ๋์๊ฐ๋ค.
โ์ค์ ์ด๋ฏธ์ง ์ ์ํธ์์ฉ์ ์ ๋ง ๋ ๋ฆฝ์ ์ธ pair๋ค์ ์งํฉ์ผ๊น?โ
์ฌ๋์ด ์ํ์์ ๋ฐฅ์ ๋จน๋ ์ฅ๋ฉด์ ์๊ฐํด๋ณด์.
- ์ฌ๋์ด ์๊ฐ๋ฝ์ ์ก๊ณ ์๊ณ
- ๊ทธ๋ฆ์ ๋ณด๊ณ ์์ผ๋ฉฐ
- ์์๊ณผ ์ํธ์์ฉํ๊ณ
- ํ ์ด๋ธ ์์๋ ์ปต, ์ ์, ํฌํฌ๊ฐ ํจ๊ป ์๋ค
์ด ์ฅ๋ฉด์์ ๊ฐ๊ฐ์ interaction์ ์์ ํ ๋ ๋ฆฝ์ ์ธ pair๋ก๋ง ๋ณด๋ฉด, ์ฅ๋ฉด ์ ์ฒด์ ๋ฌธ๋งฅ์ ๋์น ์ ์๋ค.
GroupHOI์ ํต์ฌ ๊ด์ ์ ๋ฐ๋ก ์ด๊ฒ์ด๋ค.
HOI๋ pair๋ค์ ๋์ด์ด ์๋๋ผ, ์ฅ๋ฉด ์์์ ์๋ฏธ ์๊ฒ ๋ฌถ์ธ interaction group์ผ๋ก ์ดํดํด์ผ ํ๋ค.
๐ HOI Detection์ด ์ด๋ ค์ด ์ด์ !
1. ์ฌ๋๊ณผ ๊ฐ์ฒด๊ฐ ์๋ค๊ณ interaction์ด ํญ์ ์๋ ๊ฒ์ ์๋๋ค
์ด๋ฏธ์ง ์์ ์ฌ๋๊ณผ ์์ ๊ฑฐ๊ฐ ์๋ค๊ณ ํด์ ๋ฌด์กฐ๊ฑด ride bicycle์ ์๋๋ค.
์ฌ๋์ ์์ ๊ฑฐ๋ฅผ ํ ์๋ ์๊ณ , ๋ ์๋ ์๊ณ , ๊ณ ์น ์๋ ์๊ณ , ๊ทธ๋ฅ ์์ ์ ์์ ์๋ ์๋ค.
์ฆ, HOI Detection์ ๋จ์ object detection๋ณด๋ค ํจ์ฌ ์ด๋ ต๋ค.
- ์ฌ๋๊ณผ ๊ฐ์ฒด์ ์์น
- ์ฌ๋์ ์์ธ
- ๊ฐ์ฒด์ ์ข ๋ฅ
- ์๊ณผ ๊ฐ์ฒด์ ์ ์ด ์ฌ๋ถ
- ์ฃผ๋ณ ์ฅ๋ฉด ๋ฌธ๋งฅ
- ๋ค๋ฅธ ๊ฐ์ฒด๋ค๊ณผ์ ๊ด๊ณ
๋ฅผ ํจ๊ป ๋ด์ผ ํ๋ค.
2. Pair ๋จ์ ๋ชจ๋ธ๋ง์ context๋ฅผ ์๊ธฐ ์ฝ๋ค
๊ธฐ์กด ๋ฐฉ์์์๋ ๋ณดํต human-object pair๋ฅผ ํ๋์ฉ ๋ถ๋ฆฌํด์ ๋ณธ๋ค.
์๋ฅผ ๋ค์ด ์ด๋ฏธ์ง ์์ ์ฌ๋์ด 3๋ช , ๊ฐ์ฒด๊ฐ 10๊ฐ ์๋ค๋ฉด ๊ฐ๋ฅํ pair๋ 30๊ฐ๊ฐ ๋๋ค.
๊ฐ pair๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ๋ถ๋ฅํ๋ฉด ๊ตฌ์กฐ๋ ๋จ์ํ์ง๋ง, ๋ค์ ๋ฌธ์ ๊ฐ ์๊ธด๋ค.
- ์๋ก ๊ด๋ จ๋ interaction๋ค์ ํจ๊ป ์ดํดํ๊ธฐ ์ด๋ ต๋ค.
- ํ ์ฅ๋ฉด ์์ ํ๋ ๋งฅ๋ฝ์ ์ถฉ๋ถํ ๋ฐ์ํ๊ธฐ ์ด๋ ต๋ค.
- ๊ฐ์ ์ฌ๋์ ์ค์ฌ์ผ๋ก ์ฌ๋ฌ ๊ฐ์ฒด๊ฐ ์ฐ๊ฒฐ๋ ์ํฉ์ ์ ๋ค๋ฃจ๊ธฐ ์ด๋ ต๋ค.
- ์ฌ๋ฌ ์ฌ๋์ด ๊ฐ์ ๊ฐ์ฒด ๋๋ ๊ฐ์ ํ๋์ ์ฐธ์ฌํ๋ ์ฅ๋ฉด์ ์ดํดํ๊ธฐ ์ด๋ ต๋ค.
์๋ฅผ ๋ค์ด ์ผ๊ตฌ ์ฅ๋ฉด์์๋ ์ฌ๋, ๋ฐฐํธ, ๊ณต, ๊ธ๋ฌ๋ธ, ๋ฒ ์ด์ค๊ฐ ํจ๊ป ์๋ฏธ๋ฅผ ๋ง๋ ๋ค.
์ด๋ <person, hold, bat>๋ง ๋ฐ๋ก ๋ณด๊ฑฐ๋ <person, hit, ball>๋ง ๋ฐ๋ก ๋ณด๋ฉด, ์ ์ฒด action scene์ ์ถฉ๋ถํ ์ดํดํ์ง ๋ชปํ ์ ์๋ค.
3. HOI๋ ๋ณธ์ง์ ์ผ๋ก compositionalํ๋ค
HOI๋ ๋ณดํต verb + object ์กฐํฉ์ผ๋ก ์ ์๋๋ค.
์๋ฅผ ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
hold cuphold phoneride bicycleride horseeat appleeat sandwichsit on chairsit on bench
์ด์ฒ๋ผ verb์ object๊ฐ ์กฐํฉ๋๊ธฐ ๋๋ฌธ์ category ์๊ฐ ๋ง๊ณ , long-tail ๋ฌธ์ ๊ฐ ์ฌํ๋ค.
์์ฃผ ๋ฑ์ฅํ๋ interaction์ ํ์ตํ๊ธฐ ์ฝ์ง๋ง, ๋๋ฌธ interaction์ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๋ค.
๊ทธ๋์ ๋จ์ํ ๊ฐ pair์ ๋ํด class label์ ์ธ์ฐ๋ ๋ฐฉ์์ผ๋ก๋ ํ๊ณ๊ฐ ์๋ค.
๐ง GroupHOI์ ํต์ฌ ์์ด๋์ด
GroupHOI๋ ์ ๋ชฉ ๊ทธ๋๋ก Human-Object Interaction์ Groups๋ก ํ์ตํ๋ค.
์ฌ๊ธฐ์ group์ ๋จ์ํ ์ฌ๋๊ณผ ๊ฐ์ฒด ํ๋์ pair๋ง ์๋ฏธํ์ง ์๋๋ค.
์ด๋ฏธ์ง ์์์ ์ํธ์์ฉ์ ์ผ๋ก ์ฐ๊ฒฐ๋ ์ฌ๋, ๊ฐ์ฒด, ํ๋ ๋จ์๋ค์ ํ๋์ ๊ตฌ์กฐ๋ก ๋ฐ๋ผ๋ณด๋ ๊ด์ ์ด๋ค.
์๋ฅผ ๋ค์ด,
- ํ ์ฌ๋์ด ์ฌ๋ฌ ๊ฐ์ฒด์ ์ํธ์์ฉํ๋ ๊ฒฝ์ฐ
- ์ฌ๋ฌ ์ฌ๋์ด ํ๋์ ๊ฐ์ฒด์ ๊ด๋ จ๋๋ ๊ฒฝ์ฐ
- ํ๋์ ํ๋ ์ฅ๋ฉด ์์์ ์ฌ๋ฌ interaction์ด ๋์์ ๋ฐ์ํ๋ ๊ฒฝ์ฐ
- ์ฃผ๋ณ ๊ฐ์ฒด๋ค์ด ํน์ action์ ์ดํดํ๋ ๋ฐ ๋ฌธ๋งฅ์ ์ ๊ณตํ๋ ๊ฒฝ์ฐ
๋ฅผ group ๋จ์๋ก ๋ค๋ฃจ๋ ๊ฒ์ด ํต์ฌ์ด๋ค.
์ฆ, GroupHOI๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉํฅ์ ์งํฅํ๋ค๊ณ ๋ณผ ์ ์๋ค.
๊ฐ๋ณ pair classification์์ ๋ฒ์ด๋, ์ฅ๋ฉด ์์ interaction structure๋ฅผ group representation์ผ๋ก ํ์ตํ์.
๐ผ๏ธ Pair ์ค์ฌ HOI์ Group ์ค์ฌ HOI์ ์ฐจ์ด
๊ธฐ์กด pair ์ค์ฌ ๊ด์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
1
2
3
person 1 + object A โ interaction 1
person 1 + object B โ interaction 2
person 2 + object C โ interaction 3
์ด ๋ฐฉ์์ ์ดํดํ๊ธฐ ์ฝ์ง๋ง, ๊ฐ interaction์ด ์๋ก ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ๋๋ ๊ฒฝํฅ์ด ์๋ค.
๋ฐ๋ฉด group ์ค์ฌ ๊ด์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
1
2
3
4
5
6
7
8
9
10
11
12
13
interaction group 1
- person 1
- object A
- object B
- action context
- spatial relation
- scene cue
interaction group 2
- person 2
- object C
- nearby objects
- action context
์ด๋ ๊ฒ ๋ณด๋ฉด ๋ชจ๋ธ์ ๋จ์ํ pair ํ๋๋ง ๋ณด๋ ๊ฒ์ด ์๋๋ผ,
interaction์ด ๋ฐ์ํ๋ ์ฃผ๋ณ ๊ตฌ์กฐ์ context๋ฅผ ํจ๊ป ํ์ตํ ์ ์๋ค.
๐ ์ Group์ผ๋ก ๋ณด๋ ๊ฒ์ด ์ค์ํ๊ฐ?
1. ๊ฐ์ ์ฌ๋์ ์ฌ๋ฌ ๊ฐ์ฒด์ ๋์์ ์ํธ์์ฉํ ์ ์๋ค
์๋ฅผ ๋ค์ด ์ฃผ๋ฐฉ์์ ์๋ฆฌํ๋ ์ฌ๋์ ๋์์ ์ฌ๋ฌ ๊ฐ์ฒด์ ๊ด๋ จ๋๋ค.
- ์นผ์ ์ก๊ณ ์์
- ๋๋ง ์์ ์์์ ์๋ฆ
- ๊ทธ๋ฆ์ ์ฌ์ฉํจ
- ์ฑํฌ๋ ์์ ์ ์์
์ด๋ interaction์ ํ๋์ pair๋ก ๋๋์ง ์๋๋ค.
person-knife, person-food, person-cutting board, person-bowl ๊ฐ์ ์ฌ๋ฌ ๊ด๊ณ๊ฐ ํ๋์ ํ๋ group์ ํ์ฑํ๋ค.
์ด๋ฐ group ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ฉด ๊ฐ๋ณ interaction ์์ธก๋ ๋ ์์ ์ ์ผ๋ก ํ ์ ์๋ค.
2. ์ฃผ๋ณ ๊ฐ์ฒด๊ฐ action์ ํด์ํ๋ ๋จ์๊ฐ ๋๋ค
์ฌ๋์ด ์์ ์์ผ๋ก ๋ป๊ณ ์๋ ์ฅ๋ฉด์ด ์๋ค๊ณ ํ์.
๊ทธ ์์ ์๋ ๊ฐ์ฒด๊ฐ ๋ฌด์์ธ์ง์ ๋ฐ๋ผ action ํด์์ ๋ฌ๋ผ์ง๋ค.
- ์ปต์ด ์์ผ๋ฉด
hold cup๋๋drink from cup - ๋ฌธ ์์ก์ด๊ฐ ์์ผ๋ฉด
open door - ํค๋ณด๋๊ฐ ์์ผ๋ฉด
type on keyboard - ๊ณต์ด ์์ผ๋ฉด
throw ball๋๋catch ball
์ฆ, action์ ์ฌ๋์ pose๋ง์ผ๋ก ๊ฒฐ์ ๋์ง ์๊ณ , ์ฃผ๋ณ ๊ฐ์ฒด ๋ฐ ์ฅ๋ฉด ๋ฌธ๋งฅ๊ณผ ํจ๊ป ๊ฒฐ์ ๋๋ค.
GroupHOI๋ ์ด๋ฐ ๋งฅ๋ฝ์ group ๋จ์๋ก ๋ณด๋ ค๋ ์ ๊ทผ์ด๋ค.
3. ์ฌ๋ฌ ์ฌ๋์ ๊ณต๋ ํ๋์ ์ดํดํ ์ ์๋ค
HOI Detection์์๋ ์ฌ๋ฌ ์ฌ๋์ด ํจ๊ป ํ๋์ ๊ฐ์ฒด๋ ํ๋์ ์ฐธ์ฌํ๋ ์ฅ๋ฉด๋ ์ค์ํ๋ค.
์๋ฅผ ๋ค์ด,
- ์ฌ๋ฌ ์ฌ๋์ด ๋ณดํธ๋ฅผ ํ๋ ์ฅ๋ฉด
- ๋ ์ฌ๋์ด ํ ๋์ค๋ฅผ ์น๋ ์ฅ๋ฉด
- ์ฌ๋๋ค์ด ์ํ์์ ํจ๊ป ์์ฌํ๋ ์ฅ๋ฉด
- ์ฌ๋ฌ ์ฌ๋์ด ํฐ ๋ฌผ์ฒด๋ฅผ ์ฎ๊ธฐ๋ ์ฅ๋ฉด
์ด๋ฐ ๊ฒฝ์ฐ ๊ฐ๊ฐ์ human-object pair๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก๋ง ๋ณด๋ฉด, ๊ณต๋ ํ๋์ ๋งฅ๋ฝ์ ๋์น ์ ์๋ค.
Group ๊ธฐ๋ฐ ๋ชจ๋ธ๋ง์ ์ด๋ฐ multi-person, multi-object interaction์ ๋ ์์ฐ์ค๋ฝ๊ฒ ํํํ ์ ์๋ค.
๐ GitHub README์์ ํ์ธ๋๋ ๊ตฌํ ์ ๋ณด
์ ๊ณต๋ GitHub README ๊ธฐ์ค์ผ๋ก GroupHOI ๊ตฌํ์ ๋ค์ ์์๋ค์ ํฌํจํ๋ค.
1. ์ฌ์ฉ ๋ฐ์ดํฐ์
README์์ ๊ณต์์ ์ผ๋ก ์ธ๊ธ๋๋ ๋ฐ์ดํฐ์ ์ ๋ค์ ๋ ๊ฐ์ง๋ค.
- HICO-DET
- V-COCO
HICO-DET๋ HOI Detection์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ ๋ฒค์น๋งํฌ ์ค ํ๋๋ค.
V-COCO ์ญ์ ์ฌ๋์ ํ๋๊ณผ ๊ฐ์ฒด ๊ฐ ์ํธ์์ฉ์ ํ๊ฐํ๋ ๋ํ์ ์ธ ๋ฐ์ดํฐ์
์ด๋ค.
2. Backbone ๋ฐ detector ์ด๊ธฐํ
README์์๋ DETR detector์ pretrained model์ ๋ค์ด๋ก๋ํด์ ์ฌ์ฉํ๋๋ก ์๋ดํ๋ค.
- DETR ResNet-50 pretrained model
detr-r50-e632da11.pthnum_queries 64
HICO-DET์ V-COCO์ฉ์ผ๋ก ๊ฐ๊ฐ parameter conversion์ ์ํํ๋ค.
detr-r50-pre-2branch-hico.pthdetr-r50-pre-2branch-vcoco.pth
์ฆ, GroupHOI๋ DETR ๊ณ์ด์ object detection / query ๊ธฐ๋ฐ ๊ตฌ์กฐ ์์์ HOI detection์ ์ํํ๋ ํ๋ฆ์ผ๋ก ์ดํดํ ์ ์๋ค.
3. CLIP ์ฌ์ฉ
README์๋ ๋ค์ ์ค์น ๊ณผ์ ์ด ํฌํจ๋์ด ์๋ค.
1
git clone https://github.com/openai/CLIP.git && cd CLIP && python setup.py develop && cd ..
๋ํ evaluation ๋ช ๋ น์ด์์๋ ๋ค์ ์ต์ ๋ค์ด ๋ณด์ธ๋ค.
--with_clip_label--with_obj_clip_label
์ด๋ก ๋ณด์ GroupHOI๋ HOI label ๋๋ object label ์ชฝ์ CLIP ๊ธฐ๋ฐ semantic ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๊ตฌํ์ ํฌํจํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
๋ค๋ง README๋ง์ผ๋ก๋ CLIP์ด ์ ํํ ์ด๋ค loss๋ module์์ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋์ง๊น์ง๋ ์ ์ ์๋ค.
์ ํํ ์ธ๋ถ ๊ตฌ์กฐ๋ ๋
ผ๋ฌธ ๋ณธ๋ฌธ ๋๋ ์ฝ๋์ model ํ์ผ์ ํจ๊ป ํ์ธํด์ผ ํ๋ค.
4. ์ฐธ๊ณ ํ ๊ธฐ์กด ์ฝ๋๋ฒ ์ด์ค
README์ Acknowledge์ ๋ฐ๋ฅด๋ฉด ์ผ๋ถ ์ฝ๋๋ ๋ค์ ์ฐ๊ตฌ/์ ์ฅ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
- PPDM
- DETR
- QPIC
- CDN
- GEN-VLKT
์ด ๋ชฉ๋ก๋ง ๋ด๋ GroupHOI๊ฐ HOI Detection์ ๊ธฐ์กด ์ฃผ์ ํ๋ฆ, ํนํ DETR/query ๊ธฐ๋ฐ HOI detector ๊ณ์ด๊ณผ ์ฐ๊ฒฐ๋์ด ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
๐ ๊ธฐ์กด HOI Detection ๋ฐฉ์์ ํ๊ณ
1. Human-object pair explosion ๋ฌธ์
์ด๋ฏธ์ง์ ์ฌ๋๊ณผ ๊ฐ์ฒด๊ฐ ๋ง์์ง์๋ก ๊ฐ๋ฅํ pair ์๋ ๋น ๋ฅด๊ฒ ์ฆ๊ฐํ๋ค.
์ฌ๋์ด N๋ช
, ๊ฐ์ฒด๊ฐ M๊ฐ๋ผ๋ฉด ๊ฐ๋ฅํ human-object pair๋ ๋๋ต N ร M๊ฐ๊ฐ ๋๋ค.
์๋ฅผ ๋ค์ด,
- ์ฌ๋ 5๋ช
- ๊ฐ์ฒด 20๊ฐ
์ด๋ฉด ๊ฐ๋ฅํ pair๋ 100๊ฐ๊ฐ ๋๋ค.
์ด ์ค ์ค์ interaction์ด ์๋ pair๋ ์ผ๋ถ์ ๋ถ๊ณผํ๋ค.
๊ทธ๋์ ๋ชจ๋ธ์ ๋ง์ negative pair ์์์ ์ง์ง interaction์ ์ฐพ์์ผ ํ๋ค.
Group ๊ธฐ๋ฐ ์ ๊ทผ์ ๋ชจ๋ pair๋ฅผ ๋ฌด์์ ๋
๋ฆฝ์ ์ผ๋ก ๋ณด๋ ๋์ ,
์๋ฏธ ์๋ interaction ํ๋ณด๋ค์ ๊ตฌ์กฐ์ ์ผ๋ก ๋ฌถ์ด ์๊ฐํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
2. Pair-level feature๋ง์ผ๋ก๋ ์ฅ๋ฉด ์ดํด๊ฐ ๋ถ์กฑํ๋ค
Pair-level feature๋ ๋ณดํต ๋ค์ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ค.
- human box feature
- object box feature
- union box feature
- spatial encoding
- object class
- verb classifier
ํ์ง๋ง ์ค์ interaction์ ์ดํดํ๋ ค๋ฉด ๋๋ก๋ pair ๋ฐ๊นฅ์ ์ ๋ณด๊ฐ ์ค์ํ๋ค.
์๋ฅผ ๋ค์ด eat์ ํ๋จํ๋ ค๋ฉด,
- ์ฌ๋์ ์ ์ฃผ๋ณ
- ์์ ์์น
- ์์
- ์ ์
- ์ํ
- ์ฃผ๋ณ ์์ฌ ์ฅ๋ฉด
์ด ๋ชจ๋๊ฐ ํํธ๊ฐ ๋ ์ ์๋ค.
๋ฐ๋ผ์ group-level context๋ฅผ ํ์ตํ๋ ๊ฒ์ด interaction reasoning์ ๋์์ด ๋ ์ ์๋ค.
3. Long-tail interaction์ ์ฝํ๋ค
HOI dataset์ long-tail ๋ถํฌ๊ฐ ์ฌํ๋ค.
์์ฃผ ๋ฑ์ฅํ๋ interaction์ ๋ฐ์ดํฐ๊ฐ ๋ง์ง๋ง, rare interaction์ ๋งค์ฐ ์ ๋ค.
Pair ๋จ์ classifier๋ rare class์ decision boundary๋ฅผ ์ถฉ๋ถํ ๋ฐฐ์ฐ๊ธฐ ์ด๋ ต๋ค.
GroupHOI์ฒ๋ผ ๊ตฌ์กฐ์ context๋ฅผ ํ์ฉํ๋ฉด, rare interaction๋ ์ ์ฌํ group pattern์ด๋ scene context๋ฅผ ํตํด ๋ ์ ์ผ๋ฐํํ ๊ฐ๋ฅ์ฑ์ด ์๋ค.
๐งญ GroupHOI๋ ์ด๋ค ๋ฐฉํฅ์ ์ฐ๊ตฌ์ธ๊ฐ?
GroupHOI๋ HOI Detection์ ๋ค์์ฒ๋ผ ์ฌํด์ํ๋ ์ฐ๊ตฌ๋ก ๋ณผ ์ ์๋ค.
| ๊ด์ | ๊ธฐ์กด Pair ์ค์ฌ HOI | GroupHOI ๊ด์ |
|---|---|---|
| ๊ธฐ๋ณธ ๋จ์ | Human-object pair | Human-object interaction group |
| ๋ชจ๋ธ๋ง ๋ฐฉ์ | ๊ฐ pair๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ๋ถ๋ฅ | ๊ด๋ จ๋ ์ฌ๋, ๊ฐ์ฒด, ๋ฌธ๋งฅ์ ํจ๊ป ํ์ต |
| ๊ฐ์ | ๊ตฌ์กฐ๊ฐ ๋จ์ํ๊ณ ์ง๊ด์ | ๋ณต์กํ ์ฅ๋ฉด context๋ฅผ ๋ฐ์ํ๊ธฐ ์ข์ |
| ์ฝ์ | pair explosion, context ๋ถ์กฑ | group ์ ์์ ํ์ต ์ค๊ณ๊ฐ ์ค์ |
| ๋ชฉํ | <human, verb, object> ์์ธก | group-aware interaction representation ํ์ต |
ํต์ฌ์ โpair๋ฅผ ๋ฒ๋ฆฐ๋คโ๊ฐ ์๋๋ค.
์ต์ข
์ถ๋ ฅ์ ์ฌ์ ํ <human, verb, object> triplet์ผ ์ ์๋ค.
๋ค๋ง ๊ทธ triplet์ ์์ธกํ๋ ๊ณผ์ ์์ pair ํ๋๋ง ๊ณ ๋ฆฝ์ ์ผ๋ก ๋ณด๋ ๊ฒ์ด ์๋๋ผ,
interaction group์ ๋งฅ๋ฝ ์์์ ์ดํดํ์๋ ๊ฒ์ด๋ค.
๐ ๋ณธ ์ฐ๊ตฌ์ ๋ฐฉ๋ฒ๋ก ์ ์ดํดํ๋ ํฌ์ธํธ
README๋ง์ผ๋ก๋ ๋
ผ๋ฌธ ๋ด๋ถ์ ์ธ๋ถ module ์ด๋ฆ์ด๋ loss ๊ตฌ์ฑ๊น์ง๋ ํ์ธํ๊ธฐ ์ด๋ ต๋ค.
ํ์ง๋ง ์ ๋ชฉ, ์ ์ฅ์ ๊ตฌ์กฐ, ์คํ ์ต์
, ์ฌ์ฉ ๋ฐ์ดํฐ์
์ ๊ธฐ์ค์ผ๋ก ๋ณด๋ฉด GroupHOI์์ ์ค์ํ๊ฒ ๋ด์ผ ํ ๋ฐฉ๋ฒ๋ก ์ ํฌ์ธํธ๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. Interaction group์ ์ด๋ป๊ฒ ์ ์ํ๋๊ฐ?
๊ฐ์ฅ ์ค์ํ ์ง๋ฌธ์ ์ด๊ฒ์ด๋ค.
โ๋ฌด์์ ํ๋์ group์ผ๋ก ๋ณผ ๊ฒ์ธ๊ฐ?โ
๊ฐ๋ฅํ ๊ธฐ์ค์ ์ฌ๋ฌ ๊ฐ์ง๋ค.
- ๊ฐ์ ์ฌ๋์ ์ค์ฌ์ผ๋ก ์ฐ๊ฒฐ๋ ๊ฐ์ฒด๋ค
- ๊ฐ์ ๊ฐ์ฒด์ ๊ด๋ จ๋ ์ฌ๋ฌ ์ฌ๋๋ค
- ํ๋์ activity context ์์ ์๋ ์ฌ๋๊ณผ ๊ฐ์ฒด๋ค
- spatially closeํ human-object ๊ด๊ณ
- semanticํ๊ฒ ์ฐ๊ด๋ interaction ํ๋ณด๋ค
Group ์ ์๊ฐ ์ข์์ผ ๋ชจ๋ธ์ด ์ค์ interaction ๊ตฌ์กฐ๋ฅผ ์ ๋ฐฐ์ธ ์ ์๋ค.
2. Group feature๋ฅผ ์ด๋ป๊ฒ ๋ง๋๋๊ฐ?
Group์ ์ ์ํ๋ค๋ฉด, ๊ทธ๋ค์์ group representation์ด๋ค.
๋จ์ํ box feature๋ฅผ ํ๊ท ๋ด๋ ๊ฒ๋ง์ผ๋ก๋ ๋ถ์กฑํ ์ ์๋ค.
์ข์ group feature๋ ๋ค์ ์ ๋ณด๋ฅผ ๋ด์์ผ ํ๋ค.
- ์ฌ๋์ appearance
- ๊ฐ์ฒด์ appearance
- ์ฌ๋๊ณผ ๊ฐ์ฒด์ ์๋ ์์น
- pose ๋๋ motion cue
- scene context
- ๋ค๋ฅธ ๊ฐ์ฒด์์ ๊ด๊ณ
- group ๋ด๋ถ์ interaction consistency
์ฆ, group feature๋ pair feature๋ณด๋ค ๋ ํ๋ถํ context๋ฅผ ๋ด๋ representation์ด์ด์ผ ํ๋ค.
3. Group๊ณผ triplet prediction์ ์ด๋ป๊ฒ ์ฐ๊ฒฐํ๋๊ฐ?
HOI Detection์ ์ต์ข
์ถ๋ ฅ์ ๋์ฒด๋ก <human, verb, object> triplet์ด๋ค.
๊ทธ๋ ๋ค๋ฉด group-level representation์ ์ต์ข triplet prediction๊ณผ ์ด๋ป๊ฒ ์ฐ๊ฒฐํ ์ง๊ฐ ์ค์ํ๋ค.
๊ฐ๋ฅํ ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ด๋ฏธ์ง์์ candidate human/object๋ฅผ ์ฐพ๋๋ค.
- ๊ด๋ จ ์๋ human-object ํ๋ณด๋ค์ group์ผ๋ก ๋ฌถ๋๋ค.
- group representation์ ํ์ตํ๋ค.
- group ๋ด๋ถ์์ ๊ฐ human-object interaction์ ์์ธกํ๋ค.
- ์ต์ข triplet์ ์ถ๋ ฅํ๋ค.
์ด ๊ณผ์ ์์ group์ ๋จ์ ๋ณด์กฐ feature๊ฐ ์๋๋ผ, interaction reasoning์ ์ค์ฌ ๋จ์๊ฐ ๋๋ค.
4. CLIP label ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ๋๊ฐ?
README์ evaluation command์๋ --with_clip_label, --with_obj_clip_label ์ต์
์ด ๋ฑ์ฅํ๋ค.
์ด๋ GroupHOI๊ฐ ๋จ์ visual feature๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ,
CLIP์์ ์ป์ ์ ์๋ label-level semantic ์ ๋ณด๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ ๋ฐฉํฅ์ผ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
HOI Detection์์๋ ๋ค์๊ณผ ๊ฐ์ ์ด์ ๋ก CLIP semantic์ด ์ ์ฉํ ์ ์๋ค.
ride bicycle๊ณผride horse์ฒ๋ผ ๋น์ทํ action ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง class๋ฅผ ๊ฐ๊น๊ฒ ํํํ ์ ์๋ค.hold cup๊ณผhold bottle์ฒ๋ผ object๋ ๋ค๋ฅด์ง๋ง ์ ์ฌํ interaction์ ๊ณต์ ํ๋ class์ ๋์์ ์ค ์ ์๋ค.- rare class์ classifier ํ์ต์ language prior๋ก ๋ณด์ํ ์ ์๋ค.
- object label๊ณผ verb label ์ฌ์ด์ ์๋ฏธ ๊ด๊ณ๋ฅผ ๋ ์ ๋ฐ์ํ ์ ์๋ค.
๋ค๋ง ๊ตฌ์ฒด์ ์ธ CLIP ์ฌ์ฉ ๋ฐฉ์์ ๋ ผ๋ฌธ ๋ณธ๋ฌธ ๋๋ ์ฝ๋์ model ๊ตฌํ์ ํ์ธํด์ผ ์ ํํ ๋งํ ์ ์๋ค.
๐งฉ GroupHOI์ ํต์ฌ Contribution ์ ๋ฆฌ
| ๊ตฌ๋ถ | ๋ด์ฉ |
|---|---|
| ๋ฐํ | NeurIPS 2025 |
| ๋ฌธ์ ์ค์ | Human-Object Interaction Detection |
| ํต์ฌ ๊ด์ | HOI๋ฅผ ๋ ๋ฆฝ์ ์ธ pair๊ฐ ์๋๋ผ interaction group์ผ๋ก ํ์ต |
| ๊ตฌํ ๊ธฐ๋ฐ | DETR R50, query ๊ธฐ๋ฐ HOI detection ํ๋ฆ |
| ์ฌ์ฉ ๋ฐ์ดํฐ์ | HICO-DET, V-COCO |
| Semantic ์ ๋ณด | README ๊ธฐ์ค CLIP label / object CLIP label ์ต์ ์ฌ์ฉ |
| ๊ธฐ๋ ์ฅ์ | context-aware reasoning, group-aware interaction representation, rare interaction ์ผ๋ฐํ |
| ์์ | HOI Detection์ ๊ตฌ์กฐ์ ๊ด๊ณ ํ์ต ๋ฌธ์ ๋ก ๋ ํ์ฅ |
๐งช README ๊ธฐ์ค ์คํ ๊ฒฐ๊ณผ
GitHub README์๋ Regular HOI Detection Results๊ฐ ๊ณต๊ฐ๋์ด ์๋ค.
1. HICO-DET ๊ฒฐ๊ณผ
| Model | Full (D) | Rare (D) | Non-rare (D) | Full (KO) | Rare (KO) | Non-rare (KO) |
|---|---|---|---|---|---|---|
| GroupHOI-S (R50) | 36.70 | 34.86 | 37.26 | 39.42 | 37.78 | 39.91 |
์ฌ๊ธฐ์ README ๊ธฐ์ค ํ๊ธฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- D: Default
- KO: Known Object
๋์ ๋๋ ์ ์ Rare ์ฑ๋ฅ๋ ๊ฝค ๋๊ฒ ๋ณด๊ณ ๋์ด ์๋ค๋ ๊ฒ์ด๋ค.
- Rare (D): 34.86
- Rare (KO): 37.78
HOI Detection์์๋ rare class ์ฑ๋ฅ์ด ๋งค์ฐ ์ค์ํ๋ค.
๋ฐ์ดํฐ๊ฐ ์ ์ interaction์ ์ผ๋ง๋ ์ ์์ธกํ๋์ง๊ฐ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ค.
2. V-COCO ๊ฒฐ๊ณผ
| Model | Scenario 1 | Scenario 2 |
|---|---|---|
| GroupHOI-S (R50) | 65.0 | 66.0 |
V-COCO์์๋ GroupHOI-S (R50)์ ๊ฒฐ๊ณผ๊ฐ ๊ณต๊ฐ๋์ด ์๋ค.
V-COCO๋ HICO-DET์ ํ๊ฐ ๋ฐฉ์์ด ๋ค๋ฅด์ง๋ง,
์ฌ๋์ ํ๋๊ณผ ๊ฐ์ฒด ๊ฐ ๊ด๊ณ๋ฅผ ํ๊ฐํ๋ค๋ ์ ์์ HOI detector์ ์ฑ๋ฅ์ ๋ณด๋ ์ค์ํ benchmark๋ค.
๐งช ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ๋ ์ฒดํฌํ ๋ถ๋ถ
GroupHOI๋ฅผ ์ฝ์ ๋๋ ๋จ์ํ ์ ์ฒด mAP๋ง ๋ณด๋ ๊ฒ๋ณด๋ค ๋ค์ ํฌ์ธํธ๋ฅผ ํจ๊ป ๋ณด๋ฉด ์ข๋ค.
1. Rare class ์ฑ๋ฅ์ด ์ผ๋ง๋ ์ข์์ง๋๊ฐ?
HOI Detection์ long-tail ๋ฌธ์ ๊ฐ ์ฌํ๋ค.
๋ฐ๋ผ์ ์ ์ฒด Full mAP๋ฟ ์๋๋ผ Rare mAP๊ฐ ์ค์ํ๋ค.
GroupHOI README ๊ธฐ์ค HICO-DET ๊ฒฐ๊ณผ์์ Rare ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Rare (D): 34.86
- Rare (KO): 37.78
์ด ์์น๊ฐ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ผ๋ง๋ ๊ฐ์ ๋์๋์ง, ๊ทธ๋ฆฌ๊ณ group modeling์ด rare class์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง๊ฐ ๋ ผ๋ฌธ์์ ๊ฐ์ฅ ์ค์ํ๊ฒ ๋ณผ ๋ถ๋ถ์ด๋ค.
2. Group modeling์ด ์ค์ ๋ก ํจ๊ณผ๊ฐ ์๋๊ฐ?
Ablation study์์ ๋ด์ผ ํ ํต์ฌ์ ๋ค์์ด๋ค.
- group module์ ์ ๊ฑฐํ๋ฉด ์ฑ๋ฅ์ด ๋จ์ด์ง๋๊ฐ?
- pair-only ๋ฐฉ์๊ณผ ๋น๊ตํ์ ๋ ๊ฐ์ ์ด ์๋๊ฐ?
- group ํฌ๊ธฐ๋ group ๊ตฌ์ฑ ๋ฐฉ์์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋๊ฐ?
- group context๊ฐ rare interaction์ ๋ ๋์์ด ๋๋๊ฐ?
- multi-person/multi-object ์ฅ๋ฉด์์ ๊ฐ์ ์ด ํฐ๊ฐ?
์ด๋ฐ ๋ถ์์ด ์์ด์ผ โgroup์ผ๋ก ๋ณธ๋คโ๋ ์์ด๋์ด๊ฐ ์ค์ ๋ก ์ ํจํ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
3. CLIP label ์ ๋ณด๊ฐ ์ผ๋ง๋ ๋์์ด ๋๋๊ฐ?
README ๋ช ๋ น์ด์ CLIP ๊ด๋ จ ์ต์ ์ด ์๋ ๋งํผ, ๋ค์ ablation๋ ์ค์ํ๋ค.
with_clip_label์ ์ ๊ฑฐํ์ ๋ ์ฑ๋ฅ ๋ณํwith_obj_clip_label์ ์ ๊ฑฐํ์ ๋ ์ฑ๋ฅ ๋ณํ- CLIP semantic์ด rare class์ ๋ ํฐ ๋์์ ์ฃผ๋์ง ์ฌ๋ถ
- object label semantic๊ณผ interaction group modeling์ด ์ด๋ป๊ฒ ๊ฒฐํฉ๋๋์ง
HOI class๋ verb-object ์กฐํฉ์ผ๋ก ์ด๋ฃจ์ด์ ธ ์๊ธฐ ๋๋ฌธ์,
CLIP์ language/semantic prior๊ฐ ์ ๋ค์ด๊ฐ๋ฉด long-tail ๋ฌธ์ ์ ๋์์ด ๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค.
4. ๊ณ์ฐ๋์ ์ผ๋ง๋ ์ฆ๊ฐํ๋๊ฐ?
Group modeling์ context๋ฅผ ํ๋ถํ๊ฒ ๋ง๋ค ์ ์์ง๋ง, ๊ณ์ฐ๋์ด ๋์ด๋ ์๋ ์๋ค.
๊ทธ๋์ ๋ค์๋ ์ค์ํ๋ค.
- inference ์๋
- memory ์ฌ์ฉ๋
- group ์์ฑ ๋น์ฉ
- pair enumeration ๋๋น ํจ์จ์ฑ
- DETR query ์์ ์ฑ๋ฅ์ ๊ด๊ณ
- backbone์ด๋ detector์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ์ง
์ข์ group-based HOI ๋ชจ๋ธ์ด๋ผ๋ฉด ์ฑ๋ฅ๋ฟ ์๋๋ผ ํจ์จ์ฑ๋ ํจ๊ป ๊ณ ๋ คํด์ผ ํ๋ค.
๐ฅ ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
HOI Detection์ ๋จ์ํ ๊ฐ์ฒด๋ฅผ ์ฐพ๋ ๋ฌธ์ ๊ฐ ์๋๋ค.
์ฌ๋์ด ๊ฐ์ฒด์ ์ด๋ค ๊ด๊ณ๋ฅผ ๋งบ๊ณ ์๋์ง ์ดํดํด์ผ ํ๋ค.
์ด๋ ๊ณง ์ฅ๋ฉด ์ดํด(scene understanding), ํ๋ ์ธ์(action understanding), ๊ด๊ณ ์ถ๋ก (relation reasoning)์ด ๋ชจ๋ ๊ฒฐํฉ๋ ๋ฌธ์ ๋ค.
GroupHOI๊ฐ ์ค์ํ ์ด์ ๋ HOI Detection์ ๊ธฐ๋ณธ ๋จ์๋ฅผ ๋ค์ ์๊ฐํ๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ์ด๋ค.
๊ธฐ์กด ๋ฐฉ์์ ๋๋ถ๋ถ ๋ค์์ฒ๋ผ ์๊ฐํ๋ค.
โ์ฌ๋ ํ๋์ ๊ฐ์ฒด ํ๋๋ฅผ pair๋ก ๋ง๋ค๊ณ , ๊ทธ pair์ interaction์ ๋ถ๋ฅํ์.โ
ํ์ง๋ง ์ค์ ์ด๋ฏธ์ง๋ ํจ์ฌ ๋ณต์กํ๋ค.
- ํ ์ฌ๋์ด ์ฌ๋ฌ ๊ฐ์ฒด์ ์ํธ์์ฉํ๋ค.
- ์ฌ๋ฌ ์ฌ๋์ด ๊ฐ์ ๊ฐ์ฒด์ ๊ด๋ จ๋๋ค.
- ์ฃผ๋ณ ๊ฐ์ฒด๋ค์ด action์ ํด์ํ๋ ๋ฐ ์ค์ํ ๋จ์๊ฐ ๋๋ค.
- ์ฅ๋ฉด ์ ์ฒด์ activity context๊ฐ verb prediction์ ์ํฅ์ ์ค๋ค.
๋ฐ๋ผ์ group ๋จ์๋ก interaction์ ํ์ตํ๋ ๊ฒ์ ์์ฐ์ค๋ฌ์ด ํ์ฅ์ด๋ค.
ํนํ ๋ก๋ณดํฑ์ค, ์์จ์ฃผํ, ์์ ์ดํด, ๊ฐ์ ์์คํ , AR/VR ๊ฐ์ ์์ฉ์์๋ ๋จ์ผ pair๋ณด๋ค ์ฅ๋ฉด ์ ๊ด๊ณ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๊ฒ์ด ์ค์ํ๋ค.
๐ง ๊ฐ์ธ์ ์ธ ์ดํด ํฌ์ธํธ
์ด ๋ ผ๋ฌธ์์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ๋ถ๋ถ์ HOI Detection์ โ๊ด๊ณ๋ค์ ์งํฉโ์ผ๋ก ๋ณด๋ ๊ด์ ์ด๋ค.
์ฌ๋๊ณผ ๊ฐ์ฒด ํ๋์ pair๋ง ๋ณด๋ฉด ์ ๋งคํ ์ฅ๋ฉด๋, group์ผ๋ก ๋ณด๋ฉด ํจ์ฌ ๋ช ํํด์ง ์ ์๋ค.
์๋ฅผ ๋ค์ด ์ฌ๋์ด ์์ ๋ป๊ณ ์๋ ์ฅ๋ฉด์์,
- ์ปต ํ๋๋ง ์์ผ๋ฉด
hold cup - ์ ์์ ์์์ด ํจ๊ป ์์ผ๋ฉด
eat - ์ฑํฌ๋์ ์ ์๊ฐ ์์ผ๋ฉด
wash - ๋ฌธ ์์ก์ด๊ฐ ์์ผ๋ฉด
open - ํค๋ณด๋์ ๋ชจ๋ํฐ๊ฐ ์์ผ๋ฉด
type
์ฒ๋ผ ์ฃผ๋ณ group context๊ฐ action ํด์์ ํฐ ์ํฅ์ ์ค๋ค.
์ฆ, interaction์ pair ์์๋ง ์กด์ฌํ๋ ๊ฒ์ด ์๋๋ผ, ์ฅ๋ฉด ์ ์ฒด ๊ตฌ์กฐ ์์์ ์๋ฏธ๊ฐ ๊ฒฐ์ ๋๋ค.
GroupHOI๋ ์ด ์ ์ ์ ํฌ์ฐฉํ ์ฐ๊ตฌ๋ก ๋ณผ ์ ์๋ค.
๋ํ README์์ CLIP label ๊ด๋ จ ์ต์
์ด ๋ณด์ธ๋ค๋ ์ ๋ ํฅ๋ฏธ๋กญ๋ค.
HOI๋ verb + object์ ์กฐํฉ์ด๊ธฐ ๋๋ฌธ์, ์๊ฐ ์ ๋ณด๋ฟ ์๋๋ผ label semantic์ ์ ํ์ฉํ๋ ๊ฒ์ด ํนํ ์ค์ํ๋ค.
Group-level context์ CLIP semantic์ด ํจ๊ป ์ฐ์ธ๋ค๋ฉด,
๋จ์ pair classifier๋ณด๋ค ๋ ํ๋ถํ interaction representation์ ๋ง๋ค ์ ์์ ๊ฒ์ด๋ค.
โ ๊ฒฐ๋ก
- GroupHOI๋ NeurIPS 2025์ ๋ฐํ๋ HOI Detection ์ฐ๊ตฌ๋ค.
- ์ ๋ชฉ์ฒ๋ผ HOI๋ฅผ ๋ ๋ฆฝ์ ์ธ pair๊ฐ ์๋๋ผ group ๋จ์๋ก ํ์ตํ๋ ค๋ ๊ด์ ์ ์ ์ํ๋ค.
- ๊ธฐ์กด pair ์ค์ฌ HOI Detection์ ๊ตฌ์กฐ๊ฐ ๋จ์ํ์ง๋ง, ๋ณต์กํ ์ฅ๋ฉด context๋ฅผ ๋์น๊ธฐ ์ฝ๋ค.
- GroupHOI๋ ๊ด๋ จ๋ ์ฌ๋, ๊ฐ์ฒด, action context๋ฅผ ํ๋์ interaction group์ผ๋ก ๋ณด๊ณ ๋ ํ๋ถํ ๊ด๊ณ ํํ์ ํ์ตํ๋ ค ํ๋ค.
- GitHub README ๊ธฐ์ค DETR R50 ๊ธฐ๋ฐ pretrained detector์ CLIP ๊ด๋ จ label ์ต์ ์ ์ฌ์ฉํ๋ค.
- HICO-DET์์ GroupHOI-S (R50)๋ Default Full 36.70, Rare 34.86, Known Object Full 39.42๋ฅผ ๋ณด๊ณ ํ๋ค.
- V-COCO์์๋ Scenario 1 65.0, Scenario 2 66.0์ ๋ณด๊ณ ํ๋ค.
- ํต์ฌ์ โ์ต์ข ์ถ๋ ฅ์ด triplet์ด๋ ์๋๋โ๊ฐ ์๋๋ผ, ๊ทธ triplet์ ์์ธกํ๋ ๊ณผ์ ์์ group-aware reasoning์ ํ๋๋์ด๋ค.
- HOI Detection์ ๋จ์ pair classification์์ ๊ตฌ์กฐ์ scene understanding ๋ฌธ์ ๋ก ํ์ฅํ๋ค๋ ์ ์์ ์๋ฏธ ์๋ ๋ฐฉํฅ์ด๋ค!!