๐ CrossHOI-Bench: VLM๊ณผ HOI ์ ์ฉ ๋ชจ๋ธ์ ๊ณต์ ํ๊ฒ ๋น๊ตํ๊ธฐ (CVPR 2026)
๐ CrossHOI-Bench ๋ ผ๋ฌธ ์ฝ๊ธฐ!
๋ ผ๋ฌธ: CrossHOI-Bench: A Unified Benchmark for HOI Evaluation across Vision-Language Models and HOI-Specific Methods
์ ์: Qinqian Lei, Bo Wang, Robby T. Tan
์์: National University of Singapore, University of Mississippi, ASUS Intelligent Cloud Services
ํํ: CVPR 2026
์ฝ๋: https://github.com/ChelsieLei/CrossHOI-Bench
ํ๋ก์ ํธ ํ์ด์ง: https://chelsielei.github.io/crosshoibench_page/
ํ ์ค ์์ฝ: VLM๊ณผ HOI ์ ์ฉ ๋ชจ๋ธ์ ๊ฐ์ ๋ฌธ์ ํ์์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด, HOI Detection์ ๋ณต์ ์ ๋ต ๊ฐ๊ด์ ๋ฌธ์ ๋ก ๋ฐ๊พผ ํตํฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค!!
๐งฉ ๋จผ์ HOI Detection์ด ๋ญ๊ฐ?
HOI Detection์ Human-Object Interaction Detection์ ์ค์๋ง์ด๋ค.
์ด๋ฏธ์ง ์์์ ๋จ์ํ ์ฌ๋๊ณผ ๋ฌผ์ฒด๋ฅผ ์ฐพ๋ ๊ฒ์ ๋์ด์,
- ์ฌ๋์ด ์ด๋ค ๋ฌผ์ฒด์ ์ํธ์์ฉํ๋์ง
- ๊ทธ ์ํธ์์ฉ์ด ์ด๋ค ํ๋์ธ์ง
- ์ต์ข
์ ์ผ๋ก
<person, verb, object>ํํ์ ๊ด๊ณ๊ฐ ๋ฌด์์ธ์ง
๋ฅผ ์์ธกํ๋ ๋ฌธ์ ๋ค.
์๋ฅผ ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
<person, ride, bicycle><person, hold, cup><person, cut, cake><person, sit on, chair><person, throw, frisbee>
์ฆ, HOI Detection์ ์ด๋ฏธ์ง ์์ ์ฌ๋, ๊ฐ์ฒด, ํ๋, ์์น ๊ด๊ณ๋ฅผ ํจ๊ป ์ดํดํด์ผ ํ๋ ๋ฌธ์ ๋ค.
๊ทธ๋์ ๋จ์ object detection๋ณด๋ค ํจ์ฌ ๊น๋ค๋กญ๋ค. ์ฌ๋๊ณผ ์์ ๊ฑฐ๊ฐ ๊ฐ์ด ์๋ค๊ณ ํด์ ๋ฌด์กฐ๊ฑด ride bicycle์ ์๋๊ธฐ ๋๋ฌธ์ด๋ค. ์ฌ๋์ ์์ ๊ฑฐ๋ฅผ ํ ์๋ ์๊ณ , ๋ ์๋ ์๊ณ , ๊ณ ์น ์๋ ์๊ณ , ๊ทธ๋ฅ ์์ ์ ์์ ์๋ ์๋ค.
๐จ ๊ธฐ์กด HOI ๋ฒค์น๋งํฌ์ ๋ฌธ์ : ์ ๋ต์ง๊ฐ ๋๋ฌด ๋นก๋นกํ๋ค!
๊ธฐ์กด HOI ์ฐ๊ตฌ์์๋ HICO-DET, V-COCO, SWiG-HOI ๊ฐ์ ๋ฐ์ดํฐ์ ์ด ๋ง์ด ์ฌ์ฉ๋์ด ์๋ค.
์ด ๋ฐ์ดํฐ์ ๋ค์ HOI ์ ์ฉ ๋ชจ๋ธ์ ํ๊ฐํ๋ ๋ฐ๋ ์ ์ฉํ์ง๋ง, ์ต๊ทผ ๋ฑ์ฅํ ๋ํ Vision-Language Model(VLM)์ ํ๊ฐํ๊ธฐ์๋ ์ ๋งคํ ๋ฌธ์ ๊ฐ ์๋ค.
๋ํ์ ์ธ ๋ฌธ์ ๊ฐ ๋ฐ๋ก exact label matching์ด๋ค.
๊ธฐ์กด ๋ฐฉ์์์๋ ๋ชจ๋ธ์ด ์์ธกํ interaction์ด ๋ฐ์ดํฐ์ ์ ์ ๋ต annotation๊ณผ ์ ํํ ์ผ์นํด์ผ ๋ง์๋ค๊ณ ๋ณธ๋ค. ๊ทธ๋ฐ๋ฐ ์ค์ ์ด๋ฏธ์ง๋ ํญ์ ๊ทธ๋ ๊ฒ ๊น๋ํ์ง ์๋ค.
์๋ฅผ ๋ค์ด ์ด๋ค ์ฌ๋์ด ๋นํ๊ธฐ ๋ฌธ ๊ทผ์ฒ์์ ์์ง์ด๋ ์ฅ๋ฉด์ด ์๋ค๊ณ ํ์.
- ๋ฐ์ดํฐ์
์ ๋ต:
board airplane - ๋ชจ๋ธ ์์ธก:
exit airplane
์ ์ง ์ด๋ฏธ์ง ํ ์ฅ๋ง ๋ณด๋ฉด ๋ ๋ค ๊ทธ๋ด๋ฏํ ์ ์๋ค. ํ์ง๋ง ๊ธฐ์กด ํ๊ฐ์์๋ annotation์ ์๋ ์์ธก์ ํ๋ ธ๋ค๊ณ ์ฒ๋ฆฌ๋ ์ ์๋ค.
๋ ๋ค๋ฅธ ์๋ ์๋ค.
- ์ ๋ต์๋
cut cake๋ง ์์ - ์ค์ ๋ก๋ ์์ ๋ ์นผ ๋๋ฌธ์
cut with knife๋ ๋ง์ ์ ์์ - ํ์ง๋ง annotation์ ์์ผ๋ฉด ๋ชจ๋ธ์ ํ๋ ธ๋ค๊ณ ํ๊ฐ๋ ์ ์์
์ด๋ฐ ๋ฌธ์ ๊ฐ ํนํ VLM์๊ฒ ๋ถ๋ฆฌํ๋ค. VLM์ ๊ณ ์ ๋ label id๋ฅผ ์ฐ๋ ๋ชจ๋ธ์ด ์๋๋ผ, ์ด๋ฏธ์ง ๋ด์ฉ์ ์์ฐ์ด๋ก ์ ์ฐํ๊ฒ ์ค๋ช ํ๋ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ฆ, ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ๋ค์ ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ด๋ ต๋ค.
โ์์ฆ VLM์ด HOI ์ ์ฉ ๋ชจ๋ธ๋งํผ ์ฌ๋-๊ฐ์ฒด ์ํธ์์ฉ์ ์ ์ดํดํ ๊น?โ
CrossHOI-Bench๋ ๋ฐ๋ก ์ด ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ํด ๋ง๋ค์ด์ก๋ค.
๐ ํต์ฌ ์์ด๋์ด: HOI๋ฅผ ๋ณต์ ์ ๋ต ๊ฐ๊ด์ ๋ฌธ์ ๋ก ๋ฐ๊พธ๊ธฐ!
CrossHOI-Bench์ ๊ฐ์ฅ ์ค์ํ ์์ด๋์ด๋ HOI Detection์ multiple-answer, multiple-choice task๋ก ์ฌ๊ตฌ์ฑํ๋ ๊ฒ์ด๋ค.
์ฝ๊ฒ ๋งํ๋ฉด, ๋ชจ๋ธ์๊ฒ ๋ค์์ฒ๋ผ ๋ฌป๋๋ค.
์ด ์ด๋ฏธ์ง์์ target person์ด ํ๋ interaction์ ๋ฌด์์ธ๊ฐ?
A. hold surfboard
B. jump surfboard
C. repair surfboard
D. wash surfboard
์ ๋ต์ ํ๋ ์ด์์ผ ์ ์์!
์ฌ๊ธฐ์ ์ค์ํ ์ ์ ์ ๋ต์ด ์ฌ๋ฌ ๊ฐ์ผ ์ ์๋ค๋ ๊ฒ์ด๋ค.
์ค์ ์ด๋ฏธ์ง์์๋ ํ ์ฌ๋์ด ํ๋์ ๊ฐ์ฒด์ ์ฌ๋ฌ interaction์ ๋์์ ํ ์ ์๋ค.
- ์ํ๋ณด๋๋ฅผ ์ก๊ณ ์์ผ๋ฉด์ ์ ํํ ์ ์๊ณ
- ๋ง์ ํ๋ฉด์ ์๊ณ ์์ ์ ์๊ณ
- ์นผ์ ๋ค๊ณ ์์ผ๋ฉด์ ์ผ์ดํฌ๋ฅผ ์๋ฅผ ์ ์๋ค
๊ทธ๋์ CrossHOI-Bench๋ ๋จ์ผ ์ ๋ต์ ๊ฐ์ํ์ง ์๊ณ , ์ฌ๋ฌ ๊ฐ์ positive answer๋ฅผ ํ์ฉํ๋ค.
๋ํ negative option๋ ์๋ฌด๋ ๊ฒ๋ ๊ณ ๋ฅด์ง ์๋๋ค. ๋ ผ๋ฌธ์์๋ VLM ๊ธฐ๋ฐ coarse screening๊ณผ manual refinement๋ฅผ ๊ฑฐ์ณ, ์ค์ ๋ก ํ๋ฆฐ ์ ํ์ง์ธ์ง ์ฌ๋์ด ๋ค์ ํ์ธํ๋ค.
์ด๋ ๊ฒ ํ๋ฉด ๋ค์ ์ฅ์ ์ด ์๊ธด๋ค.
- VLM๋ ๊ฐ๊ด์ ๋ต๋ณ ํ์์ผ๋ก ํ๊ฐํ ์ ์๋ค.
- HOI ์ ์ฉ ๋ชจ๋ธ๋ top-k prediction์ ๊ฐ๊ด์ ํ๋ณด์ ๋งค์นญํ์ฌ ํ๊ฐํ ์ ์๋ค.
- annotation์ ์๋ ๊ทธ๋ด๋ฏํ interaction์ ๋ฌด์กฐ๊ฑด ์ค๋ต ์ฒ๋ฆฌํ๋ ๋ฌธ์ ๋ฅผ ์ค์ผ ์ ์๋ค.
- ์ฌ๋ฌ ์ฌ๋์ด ๋ฑ์ฅํ๋ ๋ณต์กํ ์ฅ๋ฉด์์ target person ๊ธฐ์ค ํ๊ฐ๊ฐ ๊ฐ๋ฅํด์ง๋ค.
์ฆ, CrossHOI-Bench๋ VLM๊ณผ HOI ์ ์ฉ ๋ชจ๋ธ์ ๊ฐ์ ์ํ์ง ์์ ์ฌ๋ ค๋๋ ๋ฒค์น๋งํฌ๋ผ๊ณ ๋ณผ ์ ์๋ค.
๐๏ธ ๋ฒค์น๋งํฌ๋ ์ด๋ป๊ฒ ๋ง๋ค์๋?
CrossHOI-Bench๋ ์ฃผ๋ก HICO-DET์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค๊ณ , V-COCO์ SWiG-HOI ๊ธฐ๋ฐ sub-benchmark๋ ์ถ๊ฐํ๋ค.
๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ ์ฒด ๊ท๋ชจ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ ์ฒด ๋ฒค์น๋งํฌ: 3,773๊ฐ ๊ฐ๊ด์ ์ง๋ฌธ
- HICO-DET ๊ธฐ๋ฐ main benchmark: 1,274๊ฐ ์ด๋ฏธ์ง, 600๊ฐ HOI class
- V-COCO ๊ธฐ๋ฐ sub-benchmark: 647๊ฐ ์ง๋ฌธ, 499๊ฐ ์ด๋ฏธ์ง, 323๊ฐ HOI class
- SWiG-HOI ๊ธฐ๋ฐ sub-benchmark: 1,852๊ฐ ์ง๋ฌธ, 1,851๊ฐ ์ด๋ฏธ์ง, 210๊ฐ HOI class
์ฌ๊ธฐ์ HICO-DET ๊ธฐ๋ฐ main benchmark๋ฅผ ๊ณ ๋ฅธ ์ด์ ๋ HOI ์ ์ฉ ๋ชจ๋ธ๋ค์ด ์ด๋ฏธ HICO-DET ๊ธฐ์ค์ผ๋ก ๋ง์ด ํ๊ฐ๋์ด ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋์ผ ๊ธฐ์กด HOI detector์ VLM์ ๋น๊ตํ๊ธฐ ์ฝ๋ค.
ํ์ง๋ง ๋จ์ํ HICO-DET test set์ ๊ทธ๋๋ก ์ฐ์ง๋ ์๋๋ค.
๋ ผ๋ฌธ์ ๋๋ฌด ์ฌ์ด ์ฅ๋ฉด์ ์ ๊ฑฐํ๊ณ , ๋ ํท๊ฐ๋ฆฌ๋ ์ฅ๋ฉด์ ์ค์ฌ์ผ๋ก ์ฌ๊ตฌ์ฑํ๋ค.
์๋ฅผ ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ ์ฅ๋ฉด๋ค์ด ๋ ์ค์ํด์ง๋ค.
- ์ฌ๋ฌ ์ฌ๋์ด ๊ฐ์ ์ด๋ฏธ์ง ์์์ ์๋ก ๋ค๋ฅธ ํ๋์ ํ๋ ์ฅ๋ฉด
- ํ ์ฌ๋์ด ํ๋์ ๊ฐ์ฒด์ ์ฌ๋ฌ interaction์ ๋์์ ํ๋ ์ฅ๋ฉด
hold์hug,cut๊ณผpeel,board์exit์ฒ๋ผ ๊ตฌ๋ถ์ด ์ ๋งคํ ์ฅ๋ฉด- ์ฌ๋๊ณผ ์ฌ๋์ด ์ํธ์์ฉํ๋ human-human interaction ์ฅ๋ฉด
ํฅ๋ฏธ๋ก์ด ์ ์ ๊ธฐ์กด HICO-DET์์๋ single-person single-object ์ฅ๋ฉด ๋น์จ์ด ๋์ง๋ง, CrossHOI-Bench๋ ์ด๋ฐ ์ฌ์ด ์ฅ๋ฉด ๋น์จ์ ์ค์ด๊ณ multi-person different-HOI ์ฅ๋ฉด์ ํฌ๊ฒ ๋๋ ธ๋ค๋ ์ ์ด๋ค.
์ฆ, ๋จ์ํ โ๋ฒค์น๋งํฌ ํ๋ ๋ ๋ง๋ค์๋คโ๊ฐ ์๋๋ผ, VLM๊ณผ HOI ๋ชจ๋ธ์ ์ง์ง ์ฝ์ ์ด ๋๋ฌ๋๋ ์ด๋ ค์ด ์ฅ๋ฉด์ ์๋์ ์ผ๋ก ๋ชจ์ ๊ฒ์ด๋ค.
๐งช 3๊ฐ์ง ํ๊ฐ ์ค์
CrossHOI-Bench๋ ํ๋์ ์ ์๋ง ๋ณด์ง ์๊ณ , 3๊ฐ์ง setting์ผ๋ก ๋๋์ด ํ๊ฐํ๋ค.
Setting 1 โ HOI Detection
๊ฐ์ฅ ์ข ํฉ์ ์ธ ํ๊ฐ๋ค.
๋ชจ๋ธ์ ์ด๋ฏธ์ง์์ ์ฌ๋์ ์ฐพ๊ณ , ๊ทธ ์ฌ๋์ด ์ด๋ค interaction์ ํ๋์ง ๋งํ์ผ ํ๋ค.
์ฆ,
- ์ฌ๋ ์์น๋ฅผ ์ฐพ๊ณ
- target person๊ณผ ๋งค์นญํ๊ณ
- ์ฌ๋ฐ๋ฅธ HOI ์ ํ์ง๋ฅผ ๊ณ ๋ฅธ๋ค
๊น์ง ํด์ผ ํ๋ค.
์ด ์ค์ ์ ์ค์ HOI Detection์ ๊ฐ์ฅ ๊ฐ๊น๋ค. ๋์ VLM์๊ฒ๋ ๊ฝค ์ด๋ ต๋ค. VLM์ด ์์ ๋กญ๊ฒ ์ฅ๋ฉด์ ์ค๋ช ํ๋ ๋ฐ๋ ๊ฐํด๋, ์ ํํ bounding box๋ฅผ ์์ ์ ์ผ๋ก ๋ด๋ ๊ฒ์ ์์ง ์ฝ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค.
Setting 2 โ Localized HOI Recognition
์ด๋ฒ์๋ target person์ bounding box๋ฅผ ์ ๊ณตํ๋ค.
์ฆ, โ์ด ์ฌ๋์ด ๋๊ตฌ์ธ์งโ๋ ์๋ ค์ฃผ๊ณ , ๊ทธ ์ฌ๋์ด ๋ฌด์์ ํ๊ณ ์๋์ง๋ง ๋งํ๊ฒ ํ๋ค.
์ด ์ค์ ์ detection error๋ฅผ ์ ๊ฑฐํ๊ณ , ์์ํ๊ฒ interaction recognition ๋ฅ๋ ฅ์ ๋ณด๊ณ ์ถ์ ๋ ์ ์ฉํ๋ค.
๋ ผ๋ฌธ์์ ์ค์ํ ํด์๋ ์ฌ๊ธฐ์ ๋์จ๋ค.
VLM์ด Setting 1์์ ์ฝํ ๊ฒ์ด ์ ๋ง interaction ์ดํด๋ฅผ ๋ชปํด์์ธ๊ฐ?
์๋๋ฉด ์ฌ๋ ์์น๋ฅผ ๋ชป ์ก์์์ธ๊ฐ?
Setting 2๋ฅผ ๋ณด๋ฉด ์ด ๋์ ์ด๋ ์ ๋ ๋ถ๋ฆฌํด์ ๋ณผ ์ ์๋ค.
Setting 3 โ HOI Recognition
์ด๋ฏธ์ง ์ ์ฒด์์ ์ด๋ค HOI๊ฐ ์กด์ฌํ๋์ง ๋งํ๋ setting์ด๋ค.
ํน์ target person์ ์ง์คํ๊ธฐ๋ณด๋ค๋, ์ด๋ฏธ์ง ์ ์ฒด์ interaction label์ ์ธ์ํ๋ค.
์ด ์ค์ ์ localization๋ณด๋ค๋ ์ฅ๋ฉด ์ ์ฒด์ interaction understanding์ ๊ฐ๊น๋ค.
์๋ฅผ ๋ค์ด ์์ interaction, ๋ค์ค ์ธ๋ฌผ ์ฅ๋ฉด ์ดํด, ์ ์ฒด ํ๋ ๋ถ์ ๊ฐ์ downstream task์ ์ฐ๊ฒฐ๋ ์ ์๋ค.
๐ ํ๊ฐ ์งํ๋ ๋ฌด์์ ์ฐ๋?
๊ธฐ์กด HOI benchmark์์๋ mAP๊ฐ ๋ง์ด ์ฐ์ธ๋ค.
ํ์ง๋ง CrossHOI-Bench๋ ๋ณต์ ์ ๋ต ๊ฐ๊ด์ ๋ฌธ์ ์ด๋ฏ๋ก, set prediction ๊ด์ ์ ์งํ๋ฅผ ์ฌ์ฉํ๋ค.
- Macro-F1: class๋ณ ๊ท ํ์ ๊ณ ๋ คํ F1
- Instance-F1: ์ง๋ฌธ ๋จ์๋ก ์์ธก set๊ณผ ์ ๋ต set์ ๋น๊ตํ F1
- Micro-F1: ์ ์ฒด ์์ธก๊ณผ ์ ๋ต์ ๋ชจ์์ ๊ณ์ฐํ F1
- Exact Match(EM): ์์ธกํ ์ ๋ต set์ด ์์ ํ ์ผ์นํ๋ ๋น์จ
- Average Precision / Recall: ๋ชจ๋ธ์ด ๋๋ฌด ์ ๊ฒ ์ฐ๋์ง, ๋๋ฌด ๋ง์ด ์ฐ๋์ง ๋ฐ๋ก ํ์ธ
์ฌ๊ธฐ์ ํนํ ์ค์ํ ๊ฒ์ recall์ด๋ค.
VLM์ ๊ทธ๋ด๋ฏํ ์ฃผ์ action ํ๋๋ ์ ๋งํ์ง๋ง, ๊ฐ์ ์ฌ๋-๊ฐ์ฒด pair์์ ๋์์ ๋ฐ์ํ๋ ์ฌ๋ฌ action์ ๋น ๋จ๋ฆฌ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๊ทธ๋์ precision๋ง ๋ณด๋ฉด ์ข์ ๋ณด์ด์ง๋ง recall์ ๋ณด๋ฉด ์ฝ์ ์ด ๋๋ฌ๋ ์ ์๋ค.
๐ ์คํ ๊ฒฐ๊ณผ: ํฐ VLM์ ์๊ฐ๋ณด๋ค ๊ฐํ๋ค!
๋ ผ๋ฌธ์ Qwen2.5-VL, Qwen3-VL, InternVL, LLaVA-OV ๊ฐ์ VLM๋ค๊ณผ ADA-CM, CMMP, LAIN, HOLa, CMD-SE ๊ฐ์ HOI ์ ์ฉ ๋ชจ๋ธ์ ๋น๊ตํ๋ค.
๊ฐ์ฅ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ ๋ค์์ด๋ค.
ํฐ VLM์ zero-shot ์ํ์์๋ HOI ์ ์ฉ ๋ชจ๋ธ๊ณผ ๊ฒฝ์ํ๊ฑฐ๋, ์ผ๋ถ setting์์๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
์๋ฅผ ๋ค์ด main benchmark์ Setting 1์์ Qwen2.5-VL-32B๋ ๋์ Instance-F1์ ๊ธฐ๋กํ๋ฉฐ HOI ์ ์ฉ ๋ชจ๋ธ๋ณด๋ค ๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค. Setting 2์ฒ๋ผ target person box๊ฐ ์ฃผ์ด์ง๋ ๊ฒฝ์ฐ์๋ VLM์ interaction recognition ๋ฅ๋ ฅ์ด ๋ ์ ๋๋ฌ๋๋ฉฐ, Qwen2.5-VL-32B์ InternVL3-38B ๊ฐ์ ๋ํ ๋ชจ๋ธ๋ค์ด ํนํ ๊ฐํ๊ฒ ๋์จ๋ค.
ํ์ง๋ง ์ด๊ฒ์ด โVLM์ด HOI ์ ์ฉ ๋ชจ๋ธ์ ์์ ํ ์ด๊ฒผ๋คโ๋ ๋ป์ ์๋๋ค.
์ ํํ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ด์ผ ํ๋ค.
- ๋ํ VLM: ์ ๋ฐ์ ์ธ interaction ์ดํด์ open-vocabulary generalization์ ๊ฐํจ
- HOI ์ ์ฉ ๋ชจ๋ธ: localization, multi-action recognition, target person ๊ตฌ๋ถ์์ ๊ฐ์ ์ด ์์
- ์ํ VLM: recognition-only์์๋ ์ด๋ ์ ๋ ๊ฒฝ์ํ์ง๋ง detection์ด ๋ค์ด๊ฐ๋ฉด ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง
์ฆ, VLM์ ์ฅ๋ฉด์ ์ดํดํ๋ ์์๊ณผ ์ธ์ด์ ์ ์ฐ์ฑ์ด ๋ฐ์ด๋์ง๋ง, ์ฌ๋์ด ์ฌ๋ฌ ๋ช ๊ฒน์ณ ์๊ฑฐ๋ target person์ ์ ํํ ๊ตฌ๋ถํด์ผ ํ๋ ๊ฒฝ์ฐ์๋ ์์ง ๋ถ์์ ํ๋ค.
๐ค VLM์ ์ด๋์ ์์ฃผ ํ๋ฆฌ๋?
๋ ผ๋ฌธ์์ ๋ถ์ํ VLM์ ์คํจ ์ ํ์ ํนํ ์ค์ฉ์ ์ผ๋ก ์ค์ํ๋ค.
1. ์ฌ๋ฌ action ์ค ์ผ๋ถ๋ง ๋งํ๋ค
์๋ฅผ ๋ค์ด ์ฌ๋์ด surfboard๋ฅผ ์ก๊ณ ์ ํํ๋ ์ฅ๋ฉด์ด ์๋ค๊ณ ํ์.
์ ๋ต์ ๋ค์ ๋์ผ ์ ์๋ค.
jump surfboardhold surfboard
๊ทธ๋ฐ๋ฐ VLM์ ๊ฐ์ฅ ๋์ ๋๋ jump surfboard๋ง ๋งํ๊ณ hold surfboard๋ ๋น ๋จ๋ฆด ์ ์๋ค.
์ฆ, VLM์ ๋ํ action ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๋ฐ๋ ๊ฐํ์ง๋ง, ๋์์ ๋ฐ์ํ๋ interaction์ ๋ชจ๋ ๋์ดํ๋ ๋ฐ๋ ์ฝํ ์ ์๋ค.
2. ๋ค๋ฅธ ์ฌ๋์ ํ๋์ target person์๊ฒ ์๋ชป ๋ถ์ธ๋ค
์ฌ๋ฌ ์ฌ๋์ด ๊ฐ๊น์ด ์๋ ์ฅ๋ฉด์์๋, ์ฃผ๋ณ ์ฌ๋์ด ํ๋ ํ๋์ target person์ ํ๋์ผ๋ก ์คํดํ ์ ์๋ค.
์๋ฅผ ๋ค์ด ํ ์ฌ๋์ ๊ณต์ ๋ง๊ณ ์๊ณ , ๋ค๋ฅธ ์ฌ๋์ ๊ณต์ ๋์ง๋ ์ํฉ์์ VLM์ด target person์๊ฒ throw sports ball์ ๋ถ์ด๋ ์์ด๋ค.
์ด ๋ฌธ์ ๋ VLM์ global attention ๊ตฌ์กฐ์๋ ๊ด๋ จ์ด ์๋ค. ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๋๊ฒ ๋ณด๋ฉด์ ๋ฌธ๋งฅ์ ์ ์ดํดํ๋ ๋์ , โ์ด ์์ด ์ ํํ ์ด๋ ์ฌ๋์ ์์ธ๊ฐ?โ ๊ฐ์ instance-level binding์ ์ฝํ ์ ์๋ค.
3. ๋น์ทํ interaction์ ํท๊ฐ๋ฆฐ๋ค
HOI์๋ ์์ฃผ ๋น์ทํ class๊ฐ ๋ง๋ค.
hold personvshug personcut bananavspeel bananaboard boatvsexit boatrepair laptopvstype on laptop
์ด๋ฐ ์ฐจ์ด๋ ์ ์์น, ์์ , ์ ์ด ์ฌ๋ถ ๊ฐ์ ์์ ๋จ์์ ๋ฌ๋ ค ์๋ค. ํ์ฌ VLM์ ์ด๋ฐ fine-grained cue๋ฅผ ๋์น๋ ๊ฒฝ์ฐ๊ฐ ์๋ค.
4. ๊ทธ๋ด๋ฏํ์ง๋ง ์ด๋ฏธ์ง ๊ทผ๊ฑฐ๊ฐ ๋ถ์กฑํ action์ ๋งํ๋ค
VLM์ ์ธ์ด์ prior๊ฐ ๊ฐํ๋ค.
๊ทธ๋์ ์ค์ ์ด๋ฏธ์ง์๋ ๋ช ํํ ๊ทผ๊ฑฐ๊ฐ ์๋๋ฐ, ๋ฌผ์ฒด์ ์์ฃผ ํจ๊ป ๋ฑ์ฅํ๋ ํ๋์ ์ถ๋ก ํด ๋ฒ๋ฆด ์ ์๋ค.
์๋ฅผ ๋ค์ด ์ฌ๋์ด ์ด๋ฏธ ์ฝ๋ผ๋ฆฌ๋ฅผ ํ๊ณ ์๋ ์ฅ๋ฉด์์ hop on elephant์ฒ๋ผ โํ๋ ค๊ณ ์ฌ๋ผ๊ฐ๋ ์คโ์ด๋ผ๊ณ ๋งํ๋ ๊ฒฝ์ฐ๋ค.
์ด๊ฒ์ object hallucination๊ณผ ๋น์ทํ์ง๋ง, ์ฌ๊ธฐ์๋ action hallucination์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
๐ง HOI ์ ์ฉ ๋ชจ๋ธ์ ์ฌ์ ํ ํ์ํ๊ฐ?
์ด ๋ ผ๋ฌธ์ ์ฝ์ผ๋ฉด โ๋ํ VLM์ด ์ํ๋๊น HOI ์ ์ฉ ๋ชจ๋ธ์ ์ด์ ํ์ ์๋ ๊ฒ ์๋๊ฐ?โ๋ผ๋ ์๊ฐ์ด ๋ค ์ ์๋ค.
ํ์ง๋ง ๊ฒฐ๋ก ์ ๊ทธ๋ ๊ฒ ๋จ์ํ์ง ์๋ค.
HOI ์ ์ฉ ๋ชจ๋ธ์ ๋ค์ ๋ถ๋ถ์์ ์ฌ์ ํ ๊ฐ์ ์ด ์๋ค.
- bounding box ๊ธฐ๋ฐ์ ๋ช ํํ localization
- human-object pair ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ detection pipeline
- ๊ฐ์ pair์ ์ฌ๋ฌ action์ด ๋ถ๋ multi-action recognition
- target person๊ณผ ์ฃผ๋ณ ์ฌ๋์ ํ๋์ ๊ตฌ๋ถํ๋ ๋ฅ๋ ฅ
๋ฐ๋ฉด VLM์ ๋ค์ ๋ถ๋ถ์ด ๊ฐํ๋ค.
- ๋์ ์๊ฐ-์ธ์ด ์ง์
- open-vocabulary interaction ์ดํด
- ๋ฐ์ดํฐ์ label์ ๊ฐํ์ง ์๋ ํํ๋ ฅ
- zero-shot generalization
๋ฐ๋ผ์ CrossHOI-Bench์ ๊ฒฐ๋ก ์ โ๋๊ฐ ์์ ํ ์ด๊ฒผ๋คโ๊ฐ ์๋๋ผ, ๋ ๊ณ์ด์ ์ฅ๋จ์ ์ด ๋ค๋ฅด๋ค๋ ๊ฒ์ด๋ค.
VLM์ HOI ์ดํด์ ํฐ ๊ทธ๋ฆผ์ ๊ฐํ๊ณ , HOI ์ ์ฉ ๋ชจ๋ธ์ instance-level grounding๊ณผ ๊ตฌ์กฐ์ detection์ ๊ฐํ๋ค.
์ด ๊ด์ ์ด ๊ต์ฅํ ์ค์ํ๋ค.
๐ GitHub ์ ์ฅ์์์ ํ์ธํ ์ ์๋ ๊ฒ
๊ณต๊ฐ๋ GitHub ์ ์ฅ์์๋ CrossHOI-Bench ํ๊ฐ๋ฅผ ์ฌํํ๊ธฐ ์ํ ์ฝ๋์ annotation์ด ํฌํจ๋์ด ์๋ค.
์ฃผ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค.
hicodet/: HICO-DET ๊ธฐ๋ฐ main benchmark annotationvcoco/: V-COCO ๊ธฐ๋ฐ sub-benchmark annotationswighoi/: SWiG-HOI ๊ธฐ๋ฐ sub-benchmark annotationscripts/: Qwen, InternVL, HOI-specific model ํ๊ฐ์ฉ script- HOI-specific method prediction ์ ๊ณต: ADA-CM, CMMP, CMD-SE, LAIN, HOLa
README ๊ธฐ์ค์ผ๋ก ์ด๋ฏธ์ง๋ ์ง์ ํฌํจํ์ง ์๊ณ , ์ฌ์ฉ์๊ฐ HICO-DET, V-COCO, SWiG-HOI ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ ์ ํด์ง ๊ฒฝ๋ก์ ๋ฐฐ์นํ๋ ๋ฐฉ์์ด๋ค.
์ด ๋ฐฉ์์ ๋ผ์ด์ ์ค ์ธก๋ฉด์์๋ ์์ฐ์ค๋ฝ๋ค. CrossHOI-Bench๋ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฐฐํฌํ๋ ๋์ , ์๋ณธ ๋ฐ์ดํฐ์ ์์ ์น๋ derived question-answer annotation์ ์ ๊ณตํ๋ค.
๐ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ ์ด์
๋ด๊ฐ ๋ณด๊ธฐ์ CrossHOI-Bench๊ฐ ์ค์ํ ์ด์ ๋ ๋จ์ํ ์ benchmark๋ฅผ ๋ง๋ค์๊ธฐ ๋๋ฌธ์ด ์๋๋ค.
์ด ๋ ผ๋ฌธ์ ํ๊ฐ ์ง๋ฌธ ์์ฒด๋ฅผ ๋ฐ๊พผ๋ค.
๊ธฐ์กด ์ง๋ฌธ์ ๋๋ต ์ด๋ฐ ๋๋์ด์๋ค.
โ๋ชจ๋ธ์ด ๊ธฐ์กด annotation label๊ณผ ์ผ๋ง๋ ์ ํํ ์ผ์นํ๋๊ฐ?โ
CrossHOI-Bench์ ์ง๋ฌธ์ ๋ ํ์ค์ ์ด๋ค.
โ๋ชจ๋ธ์ด ํท๊ฐ๋ฆด ๋งํ ํ๋ณด๋ค ์ฌ์ด์์, ์ค์ ์ด๋ฏธ์ง์ ๋ง๋ interaction set์ ๊ณ ๋ฅผ ์ ์๋๊ฐ?โ
์ด ์ฐจ์ด๊ฐ ํฌ๋ค.
ํ์ค์ ์ด๋ฏธ์ง๋ annotation์ฒ๋ผ ๊น๋ํ์ง ์๋ค. ์ฌ๋ฌ ์ฌ๋์ด ๋์์ ์์ง์ด๊ณ , ํ ์ฌ๋์ด ์ฌ๋ฌ ๊ฐ์ฒด์ ์ํธ์์ฉํ๊ณ , ์ ์ง ์ด๋ฏธ์ง ํ ์ฅ๋ง์ผ๋ก๋ ํ๋์ด ์ ๋งคํ ๊ฒฝ์ฐ๋ ๋ง๋ค.
๊ทธ๋์ CrossHOI-Bench๋ VLM ์๋์ HOI ํ๊ฐ์ ํ์ํ ๋ฐฉํฅ์ ์ ๋ณด์ฌ์ค๋ค.
- ๊ณ ์ label matching๋ง์ผ๋ก๋ ๋ถ์กฑํ๋ค.
- VLM๊ณผ detector๋ฅผ ๊ฐ์ protocol๋ก ๋น๊ตํ ์ ์์ด์ผ ํ๋ค.
- ์ ๋ต์ ํ๋๊ฐ ์๋ ์ ์๋ค.
- negative option์ ์ ๋ง ํ๋ฆฐ์ง ์ ์คํ๊ฒ ๊ฒ์ฆํด์ผ ํ๋ค.
- ์ฌ์ด head-class ์ฅ๋ฉด๋ณด๋ค ์ด๋ ค์ด multi-person ์ฅ๋ฉด์์ ๋ชจ๋ธ ์ฐจ์ด๊ฐ ๋๋ฌ๋๋ค.
๐ง ๋์ ์ฝ๋ฉํธ!
CrossHOI-Bench๋ HOI ์ฐ๊ตฌ์์ ๊ฝค ์ค์ํ ์ ํ์ ์ฒ๋ผ ๋๊ปด์ง๋ค.
๊ทธ๋์ HOI Detection์ ์ฃผ๋ก โ์ฌ๋ box, ๊ฐ์ฒด box, interaction label์ ์ผ๋ง๋ ์ ๋งํ๋๊ฐ?โ๋ผ๋ detection ์ค์ฌ ๋ฌธ์ ๋ก ๋ค๋ค์ก๋ค. ๊ทธ๋ฐ๋ฐ VLM์ด ๋ฑ์ฅํ๋ฉด์, ์ด์ ๋ชจ๋ธ์ label id๋ฅผ ์ฐ๋ ๋์ ์์ฐ์ด๋ก ์ฅ๋ฉด์ ์ค๋ช ํ ์ ์๊ฒ ๋์๋ค.
๋ฌธ์ ๋ ํ๊ฐ ๋ฐฉ์์ด ๊ทธ ๋ณํ๋ฅผ ๋ฐ๋ผ๊ฐ์ง ๋ชปํ๋ค๋ ์ ์ด๋ค.
CrossHOI-Bench๋ ๊ทธ ๊ฐ๊ทน์ ์ ์ฐ๋ฅธ๋ค.
ํนํ ๋ณต์ ์ ๋ต ๊ฐ๊ด์์ด๋ผ๋ ํ์์ด ๋ง์์ ๋ ๋ค. ์์ ํ open-ended generation ํ๊ฐ๋ ์์ง parsing๋ ์ด๋ ต๊ณ ๊ณต์ ์ฑ๋ ์ ๋งคํ๋ค. ๋ฐ๋๋ก ๊ธฐ์กด exact-match ํ๊ฐ๋ ๋๋ฌด ๊ฒฝ์ง๋์ด ์๋ค. CrossHOI-Bench๋ ๊ทธ ์ค๊ฐ ์ง์ ์์, ํ๊ฐ๋ฅผ ํต์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค๋ฉด์๋ VLM์ ์ ์ฐ์ฑ์ ์ด๋ ์ ๋ ์ธ์ ํ๋ค.
๋ ํ๋ ์ธ์์ ์ธ ์ ์ ๊ฒฐ๊ณผ ํด์์ด ๊ท ํ ์กํ ์๋ค๋ ๊ฒ์ด๋ค.
โVLM์ด ๋ค ์ด๊ฒผ๋ค!โ๊ฐ ์๋๋ผ,
- VLM์ ๋์ ์๋ฏธ ์ดํด์ zero-shot generalization์ ๊ฐํ๊ณ
- HOI ์ ์ฉ ๋ชจ๋ธ์ localization๊ณผ multi-action ๊ตฌ์กฐ์ ๊ฐํ๋ฉฐ
- ๋ ๋ค cross-person attribution๊ณผ fine-grained interaction ๊ตฌ๋ถ์์๋ ์์ง ์ด๋ ต๋ค
๋ผ๊ณ ์ ๋ฆฌํ๋ค.
์ค๋ฌด์ ์ผ๋ก๋ ์ด ๋ฉ์์ง๋ ์ค์ํ๋ค.
๋ก๋ด, CCTV ๋ถ์, ์คํฌ์ธ ๋ถ์, ์๋ฃ/๋๋ด ๋ชจ๋ํฐ๋ง์ฒ๋ผ โ๋๊ฐ ๋ฌด์์ ํ๊ณ ์๋์งโ๋ฅผ ์ ํํ ์์์ผ ํ๋ ์์คํ ์์๋ ๋จ์ํ ๋ํ VLM ํ๋๋ง ๋ฏฟ๊ธฐ ์ด๋ ต๋ค. target person์ ์ ํํ ์ก๊ณ , ์ฃผ๋ณ ์ฌ๋๊ณผ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฆฌํ๊ณ , ๋์์ ๋ฐ์ํ๋ ์ฌ๋ฌ action์ ๋น ๋จ๋ฆฌ์ง ์๋ ๊ตฌ์กฐ๊ฐ ํ์ํ๋ค.
๋ฐ๋๋ก open-world ํ๊ฒฝ์์ ๊ธฐ์กด label set ๋ฐ์ ์ํธ์์ฉ๊น์ง ๋๊ฒ ์ดํดํด์ผ ํ๋ค๋ฉด VLM์ ์ฅ์ ์ด ํฌ๋ค.
๊ทธ๋์ ์์ผ๋ก๋ VLM์ ๋์ ์์๊ณผ HOI detector์ ๊ตฌ์กฐ์ grounding์ ๊ฒฐํฉํ๋ ๋ฐฉํฅ์ด ๋ ์ค์ํด์ง ๊ฒ ๊ฐ๋ค.
CrossHOI-Bench๋ ๊ทธ ๋ฐฉํฅ์ ํ๊ฐํ ์ ์๋ ์ข์ ์ํ์ง๋ค.