Post

๐Ÿ”€ CrossHOI-Bench: VLM๊ณผ HOI ์ „์šฉ ๋ชจ๋ธ์„ ๊ณต์ •ํ•˜๊ฒŒ ๋น„๊ตํ•˜๊ธฐ (CVPR 2026)

๐Ÿ”€ CrossHOI-Bench: VLM๊ณผ HOI ์ „์šฉ ๋ชจ๋ธ์„ ๊ณต์ •ํ•˜๊ฒŒ ๋น„๊ตํ•˜๊ธฐ (CVPR 2026)

๐Ÿ”€ CrossHOI-Bench ๋…ผ๋ฌธ ์ฝ๊ธฐ!

๋…ผ๋ฌธ: CrossHOI-Bench: A Unified Benchmark for HOI Evaluation across Vision-Language Models and HOI-Specific Methods
์ €์ž: Qinqian Lei, Bo Wang, Robby T. Tan
์†Œ์†: National University of Singapore, University of Mississippi, ASUS Intelligent Cloud Services
ํ•™ํšŒ: CVPR 2026
์ฝ”๋“œ: https://github.com/ChelsieLei/CrossHOI-Bench
ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€: https://chelsielei.github.io/crosshoibench_page/
ํ•œ ์ค„ ์š”์•ฝ: VLM๊ณผ HOI ์ „์šฉ ๋ชจ๋ธ์„ ๊ฐ™์€ ๋ฌธ์ œ ํ˜•์‹์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด, HOI Detection์„ ๋ณต์ˆ˜ ์ •๋‹ต ๊ฐ๊ด€์‹ ๋ฌธ์ œ๋กœ ๋ฐ”๊พผ ํ†ตํ•ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค!!


๐Ÿงฉ ๋จผ์ € HOI Detection์ด ๋ญ”๊ฐ€?

HOI Detection์€ Human-Object Interaction Detection์˜ ์ค„์ž„๋ง์ด๋‹ค.

์ด๋ฏธ์ง€ ์•ˆ์—์„œ ๋‹จ์ˆœํžˆ ์‚ฌ๋žŒ๊ณผ ๋ฌผ์ฒด๋ฅผ ์ฐพ๋Š” ๊ฒƒ์„ ๋„˜์–ด์„œ,

  • ์‚ฌ๋žŒ์ด ์–ด๋–ค ๋ฌผ์ฒด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š”์ง€
  • ๊ทธ ์ƒํ˜ธ์ž‘์šฉ์ด ์–ด๋–ค ํ–‰๋™์ธ์ง€
  • ์ตœ์ข…์ ์œผ๋กœ <person, verb, object> ํ˜•ํƒœ์˜ ๊ด€๊ณ„๊ฐ€ ๋ฌด์—‡์ธ์ง€

๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • <person, ride, bicycle>
  • <person, hold, cup>
  • <person, cut, cake>
  • <person, sit on, chair>
  • <person, throw, frisbee>

์ฆ‰, HOI Detection์€ ์ด๋ฏธ์ง€ ์•ˆ์˜ ์‚ฌ๋žŒ, ๊ฐ์ฒด, ํ–‰๋™, ์œ„์น˜ ๊ด€๊ณ„๋ฅผ ํ•จ๊ป˜ ์ดํ•ดํ•ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๋‹ค.

๊ทธ๋ž˜์„œ ๋‹จ์ˆœ object detection๋ณด๋‹ค ํ›จ์”ฌ ๊นŒ๋‹ค๋กญ๋‹ค. ์‚ฌ๋žŒ๊ณผ ์ž์ „๊ฑฐ๊ฐ€ ๊ฐ™์ด ์žˆ๋‹ค๊ณ  ํ•ด์„œ ๋ฌด์กฐ๊ฑด ride bicycle์€ ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์‚ฌ๋žŒ์€ ์ž์ „๊ฑฐ๋ฅผ ํƒˆ ์ˆ˜๋„ ์žˆ๊ณ , ๋Œ ์ˆ˜๋„ ์žˆ๊ณ , ๊ณ ์น  ์ˆ˜๋„ ์žˆ๊ณ , ๊ทธ๋ƒฅ ์˜†์— ์„œ ์žˆ์„ ์ˆ˜๋„ ์žˆ๋‹ค.


๐Ÿšจ ๊ธฐ์กด HOI ๋ฒค์น˜๋งˆํฌ์˜ ๋ฌธ์ œ: ์ •๋‹ต์ง€๊ฐ€ ๋„ˆ๋ฌด ๋นก๋นกํ•˜๋‹ค!

๊ธฐ์กด HOI ์—ฐ๊ตฌ์—์„œ๋Š” HICO-DET, V-COCO, SWiG-HOI ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์ด ๋งŽ์ด ์‚ฌ์šฉ๋˜์–ด ์™”๋‹ค.

์ด ๋ฐ์ดํ„ฐ์…‹๋“ค์€ HOI ์ „์šฉ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ๋Š” ์œ ์šฉํ–ˆ์ง€๋งŒ, ์ตœ๊ทผ ๋“ฑ์žฅํ•œ ๋Œ€ํ˜• Vision-Language Model(VLM)์„ ํ‰๊ฐ€ํ•˜๊ธฐ์—๋Š” ์• ๋งคํ•œ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค.

๋Œ€ํ‘œ์ ์ธ ๋ฌธ์ œ๊ฐ€ ๋ฐ”๋กœ exact label matching์ด๋‹ค.

๊ธฐ์กด ๋ฐฉ์‹์—์„œ๋Š” ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ interaction์ด ๋ฐ์ดํ„ฐ์…‹์˜ ์ •๋‹ต annotation๊ณผ ์ •ํ™•ํžˆ ์ผ์น˜ํ•ด์•ผ ๋งž์•˜๋‹ค๊ณ  ๋ณธ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์‹ค์ œ ์ด๋ฏธ์ง€๋Š” ํ•ญ์ƒ ๊ทธ๋ ‡๊ฒŒ ๊น”๋”ํ•˜์ง€ ์•Š๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ์‚ฌ๋žŒ์ด ๋น„ํ–‰๊ธฐ ๋ฌธ ๊ทผ์ฒ˜์—์„œ ์›€์ง์ด๋Š” ์žฅ๋ฉด์ด ์žˆ๋‹ค๊ณ  ํ•˜์ž.

sampleImage

  • ๋ฐ์ดํ„ฐ์…‹ ์ •๋‹ต: board airplane
  • ๋ชจ๋ธ ์˜ˆ์ธก: exit airplane

์ •์ง€ ์ด๋ฏธ์ง€ ํ•œ ์žฅ๋งŒ ๋ณด๋ฉด ๋‘˜ ๋‹ค ๊ทธ๋Ÿด๋“ฏํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ธฐ์กด ํ‰๊ฐ€์—์„œ๋Š” annotation์— ์—†๋Š” ์˜ˆ์ธก์€ ํ‹€๋ ธ๋‹ค๊ณ  ์ฒ˜๋ฆฌ๋  ์ˆ˜ ์žˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์˜ˆ๋„ ์žˆ๋‹ค.

more_images

  • ์ •๋‹ต์—๋Š” cut cake๋งŒ ์žˆ์Œ
  • ์‹ค์ œ๋กœ๋Š” ์†์— ๋“  ์นผ ๋•Œ๋ฌธ์— cut with knife๋„ ๋งž์„ ์ˆ˜ ์žˆ์Œ
  • ํ•˜์ง€๋งŒ annotation์— ์—†์œผ๋ฉด ๋ชจ๋ธ์€ ํ‹€๋ ธ๋‹ค๊ณ  ํ‰๊ฐ€๋  ์ˆ˜ ์žˆ์Œ

์ด๋Ÿฐ ๋ฌธ์ œ๊ฐ€ ํŠนํžˆ VLM์—๊ฒŒ ๋ถˆ๋ฆฌํ•˜๋‹ค. VLM์€ ๊ณ ์ •๋œ label id๋ฅผ ์ฐ๋Š” ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ, ์ด๋ฏธ์ง€ ๋‚ด์šฉ์„ ์ž์—ฐ์–ด๋กœ ์œ ์—ฐํ•˜๊ฒŒ ์„ค๋ช…ํ•˜๋Š” ๋ชจ๋ธ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ฆ‰, ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋Š” ๋‹ค์Œ ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

โ€œ์š”์ฆ˜ VLM์ด HOI ์ „์šฉ ๋ชจ๋ธ๋งŒํผ ์‚ฌ๋žŒ-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ์„ ์ž˜ ์ดํ•ดํ• ๊นŒ?โ€

CrossHOI-Bench๋Š” ๋ฐ”๋กœ ์ด ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ธฐ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ๋‹ค.


๐Ÿ”€ ํ•ต์‹ฌ ์•„์ด๋””์–ด: HOI๋ฅผ ๋ณต์ˆ˜ ์ •๋‹ต ๊ฐ๊ด€์‹ ๋ฌธ์ œ๋กœ ๋ฐ”๊พธ๊ธฐ!

CrossHOI-Bench์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์•„์ด๋””์–ด๋Š” HOI Detection์„ multiple-answer, multiple-choice task๋กœ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด, ๋ชจ๋ธ์—๊ฒŒ ๋‹ค์Œ์ฒ˜๋Ÿผ ๋ฌป๋Š”๋‹ค.

์ด ์ด๋ฏธ์ง€์—์„œ target person์ด ํ•˜๋Š” interaction์€ ๋ฌด์—‡์ธ๊ฐ€?
A. hold surfboard
B. jump surfboard
C. repair surfboard
D. wash surfboard
์ •๋‹ต์€ ํ•˜๋‚˜ ์ด์ƒ์ผ ์ˆ˜ ์žˆ์Œ!

์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ์ ์€ ์ •๋‹ต์ด ์—ฌ๋Ÿฌ ๊ฐœ์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์‹ค์ œ ์ด๋ฏธ์ง€์—์„œ๋Š” ํ•œ ์‚ฌ๋žŒ์ด ํ•˜๋‚˜์˜ ๊ฐ์ฒด์™€ ์—ฌ๋Ÿฌ interaction์„ ๋™์‹œ์— ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ์„œํ•‘๋ณด๋“œ๋ฅผ ์žก๊ณ  ์žˆ์œผ๋ฉด์„œ ์ ํ”„ํ•  ์ˆ˜ ์žˆ๊ณ 
  • ๋ง์„ ํƒ€๋ฉด์„œ ์•ˆ๊ณ  ์žˆ์„ ์ˆ˜ ์žˆ๊ณ 
  • ์นผ์„ ๋“ค๊ณ  ์žˆ์œผ๋ฉด์„œ ์ผ€์ดํฌ๋ฅผ ์ž๋ฅผ ์ˆ˜ ์žˆ๋‹ค

๊ทธ๋ž˜์„œ CrossHOI-Bench๋Š” ๋‹จ์ผ ์ •๋‹ต์„ ๊ฐ•์š”ํ•˜์ง€ ์•Š๊ณ , ์—ฌ๋Ÿฌ ๊ฐœ์˜ positive answer๋ฅผ ํ—ˆ์šฉํ•œ๋‹ค.

๋˜ํ•œ negative option๋„ ์•„๋ฌด๋ ‡๊ฒŒ๋‚˜ ๊ณ ๋ฅด์ง€ ์•Š๋Š”๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” VLM ๊ธฐ๋ฐ˜ coarse screening๊ณผ manual refinement๋ฅผ ๊ฑฐ์ณ, ์‹ค์ œ๋กœ ํ‹€๋ฆฐ ์„ ํƒ์ง€์ธ์ง€ ์‚ฌ๋žŒ์ด ๋‹ค์‹œ ํ™•์ธํ•œ๋‹ค.

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋‹ค์Œ ์žฅ์ ์ด ์ƒ๊ธด๋‹ค.

  • VLM๋„ ๊ฐ๊ด€์‹ ๋‹ต๋ณ€ ํ˜•์‹์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • HOI ์ „์šฉ ๋ชจ๋ธ๋„ top-k prediction์„ ๊ฐ๊ด€์‹ ํ›„๋ณด์™€ ๋งค์นญํ•˜์—ฌ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • annotation์— ์—†๋Š” ๊ทธ๋Ÿด๋“ฏํ•œ interaction์„ ๋ฌด์กฐ๊ฑด ์˜ค๋‹ต ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค.
  • ์—ฌ๋Ÿฌ ์‚ฌ๋žŒ์ด ๋“ฑ์žฅํ•˜๋Š” ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ target person ๊ธฐ์ค€ ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

์ฆ‰, CrossHOI-Bench๋Š” VLM๊ณผ HOI ์ „์šฉ ๋ชจ๋ธ์„ ๊ฐ™์€ ์‹œํ—˜์ง€ ์œ„์— ์˜ฌ๋ ค๋†“๋Š” ๋ฒค์น˜๋งˆํฌ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.


๐Ÿ—๏ธ ๋ฒค์น˜๋งˆํฌ๋Š” ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค์—ˆ๋‚˜?

CrossHOI-Bench๋Š” ์ฃผ๋กœ HICO-DET์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งŒ๋“ค๊ณ , V-COCO์™€ SWiG-HOI ๊ธฐ๋ฐ˜ sub-benchmark๋„ ์ถ”๊ฐ€ํ–ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•˜๋Š” ์ „์ฒด ๊ทœ๋ชจ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์ „์ฒด ๋ฒค์น˜๋งˆํฌ: 3,773๊ฐœ ๊ฐ๊ด€์‹ ์งˆ๋ฌธ
  • HICO-DET ๊ธฐ๋ฐ˜ main benchmark: 1,274๊ฐœ ์ด๋ฏธ์ง€, 600๊ฐœ HOI class
  • V-COCO ๊ธฐ๋ฐ˜ sub-benchmark: 647๊ฐœ ์งˆ๋ฌธ, 499๊ฐœ ์ด๋ฏธ์ง€, 323๊ฐœ HOI class
  • SWiG-HOI ๊ธฐ๋ฐ˜ sub-benchmark: 1,852๊ฐœ ์งˆ๋ฌธ, 1,851๊ฐœ ์ด๋ฏธ์ง€, 210๊ฐœ HOI class

์—ฌ๊ธฐ์„œ HICO-DET ๊ธฐ๋ฐ˜ main benchmark๋ฅผ ๊ณ ๋ฅธ ์ด์œ ๋Š” HOI ์ „์šฉ ๋ชจ๋ธ๋“ค์ด ์ด๋ฏธ HICO-DET ๊ธฐ์ค€์œผ๋กœ ๋งŽ์ด ํ‰๊ฐ€๋˜์–ด ์™”๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋ž˜์•ผ ๊ธฐ์กด HOI detector์™€ VLM์„ ๋น„๊ตํ•˜๊ธฐ ์‰ฝ๋‹ค.

ํ•˜์ง€๋งŒ ๋‹จ์ˆœํžˆ HICO-DET test set์„ ๊ทธ๋Œ€๋กœ ์“ฐ์ง€๋Š” ์•Š๋Š”๋‹ค.

๋…ผ๋ฌธ์€ ๋„ˆ๋ฌด ์‰ฌ์šด ์žฅ๋ฉด์„ ์ œ๊ฑฐํ•˜๊ณ , ๋” ํ—ท๊ฐˆ๋ฆฌ๋Š” ์žฅ๋ฉด์„ ์ค‘์‹ฌ์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์žฅ๋ฉด๋“ค์ด ๋” ์ค‘์š”ํ•ด์ง„๋‹ค.

  • ์—ฌ๋Ÿฌ ์‚ฌ๋žŒ์ด ๊ฐ™์€ ์ด๋ฏธ์ง€ ์•ˆ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ํ–‰๋™์„ ํ•˜๋Š” ์žฅ๋ฉด
  • ํ•œ ์‚ฌ๋žŒ์ด ํ•˜๋‚˜์˜ ๊ฐ์ฒด์™€ ์—ฌ๋Ÿฌ interaction์„ ๋™์‹œ์— ํ•˜๋Š” ์žฅ๋ฉด
  • hold์™€ hug, cut๊ณผ peel, board์™€ exit์ฒ˜๋Ÿผ ๊ตฌ๋ถ„์ด ์• ๋งคํ•œ ์žฅ๋ฉด
  • ์‚ฌ๋žŒ๊ณผ ์‚ฌ๋žŒ์ด ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” human-human interaction ์žฅ๋ฉด

ํฅ๋ฏธ๋กœ์šด ์ ์€ ๊ธฐ์กด HICO-DET์—์„œ๋Š” single-person single-object ์žฅ๋ฉด ๋น„์œจ์ด ๋†’์ง€๋งŒ, CrossHOI-Bench๋Š” ์ด๋Ÿฐ ์‰ฌ์šด ์žฅ๋ฉด ๋น„์œจ์„ ์ค„์ด๊ณ  multi-person different-HOI ์žฅ๋ฉด์„ ํฌ๊ฒŒ ๋Š˜๋ ธ๋‹ค๋Š” ์ ์ด๋‹ค.

์ฆ‰, ๋‹จ์ˆœํžˆ โ€œ๋ฒค์น˜๋งˆํฌ ํ•˜๋‚˜ ๋” ๋งŒ๋“ค์—ˆ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋ผ, VLM๊ณผ HOI ๋ชจ๋ธ์˜ ์ง„์งœ ์•ฝ์ ์ด ๋“œ๋Ÿฌ๋‚˜๋Š” ์–ด๋ ค์šด ์žฅ๋ฉด์„ ์˜๋„์ ์œผ๋กœ ๋ชจ์€ ๊ฒƒ์ด๋‹ค.


๐Ÿงช 3๊ฐ€์ง€ ํ‰๊ฐ€ ์„ค์ •

CrossHOI-Bench๋Š” ํ•˜๋‚˜์˜ ์ ์ˆ˜๋งŒ ๋ณด์ง€ ์•Š๊ณ , 3๊ฐ€์ง€ setting์œผ๋กœ ๋‚˜๋ˆ„์–ด ํ‰๊ฐ€ํ•œ๋‹ค.

real_three

three_setting

Setting 1 โ€” HOI Detection

๊ฐ€์žฅ ์ข…ํ•ฉ์ ์ธ ํ‰๊ฐ€๋‹ค.

๋ชจ๋ธ์€ ์ด๋ฏธ์ง€์—์„œ ์‚ฌ๋žŒ์„ ์ฐพ๊ณ , ๊ทธ ์‚ฌ๋žŒ์ด ์–ด๋–ค interaction์„ ํ•˜๋Š”์ง€ ๋งžํ˜€์•ผ ํ•œ๋‹ค.

์ฆ‰,

  1. ์‚ฌ๋žŒ ์œ„์น˜๋ฅผ ์ฐพ๊ณ 
  2. target person๊ณผ ๋งค์นญํ•˜๊ณ 
  3. ์˜ฌ๋ฐ”๋ฅธ HOI ์„ ํƒ์ง€๋ฅผ ๊ณ ๋ฅธ๋‹ค

๊นŒ์ง€ ํ•ด์•ผ ํ•œ๋‹ค.

์ด ์„ค์ •์€ ์‹ค์ œ HOI Detection์— ๊ฐ€์žฅ ๊ฐ€๊น๋‹ค. ๋Œ€์‹  VLM์—๊ฒŒ๋Š” ๊ฝค ์–ด๋ ต๋‹ค. VLM์ด ์ž์œ ๋กญ๊ฒŒ ์žฅ๋ฉด์„ ์„ค๋ช…ํ•˜๋Š” ๋ฐ๋Š” ๊ฐ•ํ•ด๋„, ์ •ํ™•ํ•œ bounding box๋ฅผ ์•ˆ์ •์ ์œผ๋กœ ๋‚ด๋Š” ๊ฒƒ์€ ์•„์ง ์‰ฝ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

Setting 2 โ€” Localized HOI Recognition

์ด๋ฒˆ์—๋Š” target person์˜ bounding box๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์ฆ‰, โ€œ์ด ์‚ฌ๋žŒ์ด ๋ˆ„๊ตฌ์ธ์ง€โ€๋Š” ์•Œ๋ ค์ฃผ๊ณ , ๊ทธ ์‚ฌ๋žŒ์ด ๋ฌด์—‡์„ ํ•˜๊ณ  ์žˆ๋Š”์ง€๋งŒ ๋งžํžˆ๊ฒŒ ํ•œ๋‹ค.

์ด ์„ค์ •์€ detection error๋ฅผ ์ œ๊ฑฐํ•˜๊ณ , ์ˆœ์ˆ˜ํ•˜๊ฒŒ interaction recognition ๋Šฅ๋ ฅ์„ ๋ณด๊ณ  ์‹ถ์„ ๋•Œ ์œ ์šฉํ•˜๋‹ค.

๋…ผ๋ฌธ์—์„œ ์ค‘์š”ํ•œ ํ•ด์„๋„ ์—ฌ๊ธฐ์„œ ๋‚˜์˜จ๋‹ค.

VLM์ด Setting 1์—์„œ ์•ฝํ•œ ๊ฒƒ์ด ์ •๋ง interaction ์ดํ•ด๋ฅผ ๋ชปํ•ด์„œ์ธ๊ฐ€?
์•„๋‹ˆ๋ฉด ์‚ฌ๋žŒ ์œ„์น˜๋ฅผ ๋ชป ์žก์•„์„œ์ธ๊ฐ€?

Setting 2๋ฅผ ๋ณด๋ฉด ์ด ๋‘˜์„ ์–ด๋А ์ •๋„ ๋ถ„๋ฆฌํ•ด์„œ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Setting 3 โ€” HOI Recognition

์ด๋ฏธ์ง€ ์ „์ฒด์—์„œ ์–ด๋–ค HOI๊ฐ€ ์กด์žฌํ•˜๋Š”์ง€ ๋งžํžˆ๋Š” setting์ด๋‹ค.

ํŠน์ • target person์— ์ง‘์ค‘ํ•˜๊ธฐ๋ณด๋‹ค๋Š”, ์ด๋ฏธ์ง€ ์ „์ฒด์˜ interaction label์„ ์ธ์‹ํ•œ๋‹ค.

์ด ์„ค์ •์€ localization๋ณด๋‹ค๋Š” ์žฅ๋ฉด ์ „์ฒด์˜ interaction understanding์— ๊ฐ€๊น๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์†Œ์…œ interaction, ๋‹ค์ค‘ ์ธ๋ฌผ ์žฅ๋ฉด ์ดํ•ด, ์ „์ฒด ํ™œ๋™ ๋ถ„์„ ๊ฐ™์€ downstream task์™€ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ๋‹ค.


๐Ÿ“ ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” ๋ฌด์—‡์„ ์“ฐ๋‚˜?

๊ธฐ์กด HOI benchmark์—์„œ๋Š” mAP๊ฐ€ ๋งŽ์ด ์“ฐ์ธ๋‹ค.

ํ•˜์ง€๋งŒ CrossHOI-Bench๋Š” ๋ณต์ˆ˜ ์ •๋‹ต ๊ฐ๊ด€์‹ ๋ฌธ์ œ์ด๋ฏ€๋กœ, set prediction ๊ด€์ ์˜ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  • Macro-F1: class๋ณ„ ๊ท ํ˜•์„ ๊ณ ๋ คํ•œ F1
  • Instance-F1: ์งˆ๋ฌธ ๋‹จ์œ„๋กœ ์˜ˆ์ธก set๊ณผ ์ •๋‹ต set์„ ๋น„๊ตํ•œ F1
  • Micro-F1: ์ „์ฒด ์˜ˆ์ธก๊ณผ ์ •๋‹ต์„ ๋ชจ์•„์„œ ๊ณ„์‚ฐํ•œ F1
  • Exact Match(EM): ์˜ˆ์ธกํ•œ ์ •๋‹ต set์ด ์™„์ „ํžˆ ์ผ์น˜ํ•˜๋Š” ๋น„์œจ
  • Average Precision / Recall: ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ์ ๊ฒŒ ์ฐ๋Š”์ง€, ๋„ˆ๋ฌด ๋งŽ์ด ์ฐ๋Š”์ง€ ๋”ฐ๋กœ ํ™•์ธ

์—ฌ๊ธฐ์„œ ํŠนํžˆ ์ค‘์š”ํ•œ ๊ฒƒ์€ recall์ด๋‹ค.

VLM์€ ๊ทธ๋Ÿด๋“ฏํ•œ ์ฃผ์š” action ํ•˜๋‚˜๋Š” ์ž˜ ๋งžํžˆ์ง€๋งŒ, ๊ฐ™์€ ์‚ฌ๋žŒ-๊ฐ์ฒด pair์—์„œ ๋™์‹œ์— ๋ฐœ์ƒํ•˜๋Š” ์—ฌ๋Ÿฌ action์„ ๋น ๋œจ๋ฆฌ๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ๊ทธ๋ž˜์„œ precision๋งŒ ๋ณด๋ฉด ์ข‹์•„ ๋ณด์ด์ง€๋งŒ recall์„ ๋ณด๋ฉด ์•ฝ์ ์ด ๋“œ๋Ÿฌ๋‚  ์ˆ˜ ์žˆ๋‹ค.


๐Ÿ“Š ์‹คํ—˜ ๊ฒฐ๊ณผ: ํฐ VLM์€ ์ƒ๊ฐ๋ณด๋‹ค ๊ฐ•ํ•˜๋‹ค!

res

๋…ผ๋ฌธ์€ Qwen2.5-VL, Qwen3-VL, InternVL, LLaVA-OV ๊ฐ™์€ VLM๋“ค๊ณผ ADA-CM, CMMP, LAIN, HOLa, CMD-SE ๊ฐ™์€ HOI ์ „์šฉ ๋ชจ๋ธ์„ ๋น„๊ตํ•œ๋‹ค.

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ์ด๋‹ค.

res2

ํฐ VLM์€ zero-shot ์ƒํƒœ์—์„œ๋„ HOI ์ „์šฉ ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿํ•˜๊ฑฐ๋‚˜, ์ผ๋ถ€ setting์—์„œ๋Š” ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด main benchmark์˜ Setting 1์—์„œ Qwen2.5-VL-32B๋Š” ๋†’์€ Instance-F1์„ ๊ธฐ๋กํ•˜๋ฉฐ HOI ์ „์šฉ ๋ชจ๋ธ๋ณด๋‹ค ๊ฐ•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋‹ค. Setting 2์ฒ˜๋Ÿผ target person box๊ฐ€ ์ฃผ์–ด์ง€๋Š” ๊ฒฝ์šฐ์—๋Š” VLM์˜ interaction recognition ๋Šฅ๋ ฅ์ด ๋” ์ž˜ ๋“œ๋Ÿฌ๋‚˜๋ฉฐ, Qwen2.5-VL-32B์™€ InternVL3-38B ๊ฐ™์€ ๋Œ€ํ˜• ๋ชจ๋ธ๋“ค์ด ํŠนํžˆ ๊ฐ•ํ•˜๊ฒŒ ๋‚˜์˜จ๋‹ค.

ํ•˜์ง€๋งŒ ์ด๊ฒƒ์ด โ€œVLM์ด HOI ์ „์šฉ ๋ชจ๋ธ์„ ์™„์ „ํžˆ ์ด๊ฒผ๋‹คโ€๋Š” ๋œป์€ ์•„๋‹ˆ๋‹ค.

์ •ํ™•ํžˆ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ด์•ผ ํ•œ๋‹ค.

  • ๋Œ€ํ˜• VLM: ์ „๋ฐ˜์ ์ธ interaction ์ดํ•ด์™€ open-vocabulary generalization์— ๊ฐ•ํ•จ
  • HOI ์ „์šฉ ๋ชจ๋ธ: localization, multi-action recognition, target person ๊ตฌ๋ถ„์—์„œ ๊ฐ•์ ์ด ์žˆ์Œ
  • ์†Œํ˜• VLM: recognition-only์—์„œ๋Š” ์–ด๋А ์ •๋„ ๊ฒฝ์Ÿํ•˜์ง€๋งŒ detection์ด ๋“ค์–ด๊ฐ€๋ฉด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋–จ์–ด์ง

์ฆ‰, VLM์€ ์žฅ๋ฉด์„ ์ดํ•ดํ•˜๋Š” ์ƒ์‹๊ณผ ์–ธ์–ด์  ์œ ์—ฐ์„ฑ์ด ๋›ฐ์–ด๋‚˜์ง€๋งŒ, ์‚ฌ๋žŒ์ด ์—ฌ๋Ÿฌ ๋ช… ๊ฒน์ณ ์žˆ๊ฑฐ๋‚˜ target person์„ ์ •ํ™•ํžˆ ๊ตฌ๋ถ„ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” ์•„์ง ๋ถˆ์•ˆ์ •ํ•˜๋‹ค.


๐Ÿค” VLM์€ ์–ด๋””์„œ ์ž์ฃผ ํ‹€๋ฆฌ๋‚˜?

๋…ผ๋ฌธ์—์„œ ๋ถ„์„ํ•œ VLM์˜ ์‹คํŒจ ์œ ํ˜•์€ ํŠนํžˆ ์‹ค์šฉ์ ์œผ๋กœ ์ค‘์š”ํ•˜๋‹ค.

1. ์—ฌ๋Ÿฌ action ์ค‘ ์ผ๋ถ€๋งŒ ๋งžํžŒ๋‹ค

์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฌ๋žŒ์ด surfboard๋ฅผ ์žก๊ณ  ์ ํ”„ํ•˜๋Š” ์žฅ๋ฉด์ด ์žˆ๋‹ค๊ณ  ํ•˜์ž.

์ •๋‹ต์€ ๋‹ค์Œ ๋‘˜์ผ ์ˆ˜ ์žˆ๋‹ค.

  • jump surfboard
  • hold surfboard

๊ทธ๋Ÿฐ๋ฐ VLM์€ ๊ฐ€์žฅ ๋ˆˆ์— ๋„๋Š” jump surfboard๋งŒ ๋งžํžˆ๊ณ  hold surfboard๋Š” ๋น ๋œจ๋ฆด ์ˆ˜ ์žˆ๋‹ค.

์ฆ‰, VLM์€ ๋Œ€ํ‘œ action ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” ๋ฐ๋Š” ๊ฐ•ํ•˜์ง€๋งŒ, ๋™์‹œ์— ๋ฐœ์ƒํ•˜๋Š” interaction์„ ๋ชจ๋‘ ๋‚˜์—ดํ•˜๋Š” ๋ฐ๋Š” ์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค.

2. ๋‹ค๋ฅธ ์‚ฌ๋žŒ์˜ ํ–‰๋™์„ target person์—๊ฒŒ ์ž˜๋ชป ๋ถ™์ธ๋‹ค

์—ฌ๋Ÿฌ ์‚ฌ๋žŒ์ด ๊ฐ€๊นŒ์ด ์žˆ๋Š” ์žฅ๋ฉด์—์„œ๋Š”, ์ฃผ๋ณ€ ์‚ฌ๋žŒ์ด ํ•˜๋Š” ํ–‰๋™์„ target person์˜ ํ–‰๋™์œผ๋กœ ์˜คํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ ์‚ฌ๋žŒ์€ ๊ณต์„ ๋ง‰๊ณ  ์žˆ๊ณ , ๋‹ค๋ฅธ ์‚ฌ๋žŒ์€ ๊ณต์„ ๋˜์ง€๋Š” ์ƒํ™ฉ์—์„œ VLM์ด target person์—๊ฒŒ throw sports ball์„ ๋ถ™์ด๋Š” ์‹์ด๋‹ค.

์ด ๋ฌธ์ œ๋Š” VLM์˜ global attention ๊ตฌ์กฐ์™€๋„ ๊ด€๋ จ์ด ์žˆ๋‹ค. ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ๋„“๊ฒŒ ๋ณด๋ฉด์„œ ๋ฌธ๋งฅ์„ ์ž˜ ์ดํ•ดํ•˜๋Š” ๋Œ€์‹ , โ€œ์ด ์†์ด ์ •ํ™•ํžˆ ์–ด๋А ์‚ฌ๋žŒ์˜ ์†์ธ๊ฐ€?โ€ ๊ฐ™์€ instance-level binding์€ ์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค.

3. ๋น„์Šทํ•œ interaction์„ ํ—ท๊ฐˆ๋ฆฐ๋‹ค

HOI์—๋Š” ์•„์ฃผ ๋น„์Šทํ•œ class๊ฐ€ ๋งŽ๋‹ค.

  • hold person vs hug person
  • cut banana vs peel banana
  • board boat vs exit boat
  • repair laptop vs type on laptop

์ด๋Ÿฐ ์ฐจ์ด๋Š” ์† ์œ„์น˜, ์‹œ์„ , ์ ‘์ด‰ ์—ฌ๋ถ€ ๊ฐ™์€ ์ž‘์€ ๋‹จ์„œ์— ๋‹ฌ๋ ค ์žˆ๋‹ค. ํ˜„์žฌ VLM์€ ์ด๋Ÿฐ fine-grained cue๋ฅผ ๋†“์น˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค.

4. ๊ทธ๋Ÿด๋“ฏํ•˜์ง€๋งŒ ์ด๋ฏธ์ง€ ๊ทผ๊ฑฐ๊ฐ€ ๋ถ€์กฑํ•œ action์„ ๋งํ•œ๋‹ค

VLM์€ ์–ธ์–ด์  prior๊ฐ€ ๊ฐ•ํ•˜๋‹ค.

๊ทธ๋ž˜์„œ ์‹ค์ œ ์ด๋ฏธ์ง€์—๋Š” ๋ช…ํ™•ํ•œ ๊ทผ๊ฑฐ๊ฐ€ ์—†๋Š”๋ฐ, ๋ฌผ์ฒด์™€ ์ž์ฃผ ํ•จ๊ป˜ ๋“ฑ์žฅํ•˜๋Š” ํ–‰๋™์„ ์ถ”๋ก ํ•ด ๋ฒ„๋ฆด ์ˆ˜ ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์‚ฌ๋žŒ์ด ์ด๋ฏธ ์ฝ”๋ผ๋ฆฌ๋ฅผ ํƒ€๊ณ  ์žˆ๋Š” ์žฅ๋ฉด์—์„œ hop on elephant์ฒ˜๋Ÿผ โ€œํƒ€๋ ค๊ณ  ์˜ฌ๋ผ๊ฐ€๋Š” ์ค‘โ€์ด๋ผ๊ณ  ๋งํ•˜๋Š” ๊ฒฝ์šฐ๋‹ค.

์ด๊ฒƒ์€ object hallucination๊ณผ ๋น„์Šทํ•˜์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” action hallucination์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.


๐Ÿง  HOI ์ „์šฉ ๋ชจ๋ธ์€ ์—ฌ์ „ํžˆ ํ•„์š”ํ•œ๊ฐ€?

์ด ๋…ผ๋ฌธ์„ ์ฝ์œผ๋ฉด โ€œ๋Œ€ํ˜• VLM์ด ์ž˜ํ•˜๋‹ˆ๊นŒ HOI ์ „์šฉ ๋ชจ๋ธ์€ ์ด์ œ ํ•„์š” ์—†๋Š” ๊ฒƒ ์•„๋‹Œ๊ฐ€?โ€๋ผ๋Š” ์ƒ๊ฐ์ด ๋“ค ์ˆ˜ ์žˆ๋‹ค.

ํ•˜์ง€๋งŒ ๊ฒฐ๋ก ์€ ๊ทธ๋ ‡๊ฒŒ ๋‹จ์ˆœํ•˜์ง€ ์•Š๋‹ค.

HOI ์ „์šฉ ๋ชจ๋ธ์€ ๋‹ค์Œ ๋ถ€๋ถ„์—์„œ ์—ฌ์ „ํžˆ ๊ฐ•์ ์ด ์žˆ๋‹ค.

  • bounding box ๊ธฐ๋ฐ˜์˜ ๋ช…ํ™•ํ•œ localization
  • human-object pair ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ•˜๋Š” detection pipeline
  • ๊ฐ™์€ pair์— ์—ฌ๋Ÿฌ action์ด ๋ถ™๋Š” multi-action recognition
  • target person๊ณผ ์ฃผ๋ณ€ ์‚ฌ๋žŒ์˜ ํ–‰๋™์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋Šฅ๋ ฅ

๋ฐ˜๋ฉด VLM์€ ๋‹ค์Œ ๋ถ€๋ถ„์ด ๊ฐ•ํ•˜๋‹ค.

  • ๋„“์€ ์‹œ๊ฐ-์–ธ์–ด ์ง€์‹
  • open-vocabulary interaction ์ดํ•ด
  • ๋ฐ์ดํ„ฐ์…‹ label์— ๊ฐ‡ํžˆ์ง€ ์•Š๋Š” ํ‘œํ˜„๋ ฅ
  • zero-shot generalization

๋”ฐ๋ผ์„œ CrossHOI-Bench์˜ ๊ฒฐ๋ก ์€ โ€œ๋ˆ„๊ฐ€ ์™„์ „ํžˆ ์ด๊ฒผ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋ผ, ๋‘ ๊ณ„์—ด์˜ ์žฅ๋‹จ์ ์ด ๋‹ค๋ฅด๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

VLM์€ HOI ์ดํ•ด์˜ ํฐ ๊ทธ๋ฆผ์— ๊ฐ•ํ•˜๊ณ , HOI ์ „์šฉ ๋ชจ๋ธ์€ instance-level grounding๊ณผ ๊ตฌ์กฐ์  detection์— ๊ฐ•ํ•˜๋‹ค.

์ด ๊ด€์ ์ด ๊ต‰์žฅํžˆ ์ค‘์š”ํ•˜๋‹ค.


๐Ÿ” GitHub ์ €์žฅ์†Œ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ

๊ณต๊ฐœ๋œ GitHub ์ €์žฅ์†Œ์—๋Š” CrossHOI-Bench ํ‰๊ฐ€๋ฅผ ์žฌํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ์ฝ”๋“œ์™€ annotation์ด ํฌํ•จ๋˜์–ด ์žˆ๋‹ค.

์ฃผ์š” ๊ตฌ์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • hicodet/: HICO-DET ๊ธฐ๋ฐ˜ main benchmark annotation
  • vcoco/: V-COCO ๊ธฐ๋ฐ˜ sub-benchmark annotation
  • swighoi/: SWiG-HOI ๊ธฐ๋ฐ˜ sub-benchmark annotation
  • scripts/: Qwen, InternVL, HOI-specific model ํ‰๊ฐ€์šฉ script
  • HOI-specific method prediction ์ œ๊ณต: ADA-CM, CMMP, CMD-SE, LAIN, HOLa

README ๊ธฐ์ค€์œผ๋กœ ์ด๋ฏธ์ง€๋Š” ์ง์ ‘ ํฌํ•จํ•˜์ง€ ์•Š๊ณ , ์‚ฌ์šฉ์ž๊ฐ€ HICO-DET, V-COCO, SWiG-HOI ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ›์•„ ์ •ํ•ด์ง„ ๊ฒฝ๋กœ์— ๋ฐฐ์น˜ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

์ด ๋ฐฉ์‹์€ ๋ผ์ด์„ ์Šค ์ธก๋ฉด์—์„œ๋„ ์ž์—ฐ์Šค๋Ÿฝ๋‹ค. CrossHOI-Bench๋Š” ์›๋ณธ ์ด๋ฏธ์ง€๋ฅผ ์žฌ๋ฐฐํฌํ•˜๋Š” ๋Œ€์‹ , ์›๋ณธ ๋ฐ์ดํ„ฐ์…‹ ์œ„์— ์–น๋Š” derived question-answer annotation์„ ์ œ๊ณตํ•œ๋‹ค.


๐Ÿš€ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ ์ด์œ 

๋‚ด๊ฐ€ ๋ณด๊ธฐ์— CrossHOI-Bench๊ฐ€ ์ค‘์š”ํ•œ ์ด์œ ๋Š” ๋‹จ์ˆœํžˆ ์ƒˆ benchmark๋ฅผ ๋งŒ๋“ค์—ˆ๊ธฐ ๋•Œ๋ฌธ์ด ์•„๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ํ‰๊ฐ€ ์งˆ๋ฌธ ์ž์ฒด๋ฅผ ๋ฐ”๊พผ๋‹ค.

๊ธฐ์กด ์งˆ๋ฌธ์€ ๋Œ€๋žต ์ด๋Ÿฐ ๋А๋‚Œ์ด์—ˆ๋‹ค.

โ€œ๋ชจ๋ธ์ด ๊ธฐ์กด annotation label๊ณผ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํžˆ ์ผ์น˜ํ•˜๋Š”๊ฐ€?โ€

CrossHOI-Bench์˜ ์งˆ๋ฌธ์€ ๋” ํ˜„์‹ค์ ์ด๋‹ค.

โ€œ๋ชจ๋ธ์ด ํ—ท๊ฐˆ๋ฆด ๋งŒํ•œ ํ›„๋ณด๋“ค ์‚ฌ์ด์—์„œ, ์‹ค์ œ ์ด๋ฏธ์ง€์— ๋งž๋Š” interaction set์„ ๊ณ ๋ฅผ ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€

์ด ์ฐจ์ด๊ฐ€ ํฌ๋‹ค.

ํ˜„์‹ค์˜ ์ด๋ฏธ์ง€๋Š” annotation์ฒ˜๋Ÿผ ๊น”๋”ํ•˜์ง€ ์•Š๋‹ค. ์—ฌ๋Ÿฌ ์‚ฌ๋žŒ์ด ๋™์‹œ์— ์›€์ง์ด๊ณ , ํ•œ ์‚ฌ๋žŒ์ด ์—ฌ๋Ÿฌ ๊ฐ์ฒด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๊ณ , ์ •์ง€ ์ด๋ฏธ์ง€ ํ•œ ์žฅ๋งŒ์œผ๋กœ๋Š” ํ–‰๋™์ด ์• ๋งคํ•œ ๊ฒฝ์šฐ๋„ ๋งŽ๋‹ค.

๊ทธ๋ž˜์„œ CrossHOI-Bench๋Š” VLM ์‹œ๋Œ€์˜ HOI ํ‰๊ฐ€์— ํ•„์š”ํ•œ ๋ฐฉํ–ฅ์„ ์ž˜ ๋ณด์—ฌ์ค€๋‹ค.

  • ๊ณ ์ • label matching๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•˜๋‹ค.
  • VLM๊ณผ detector๋ฅผ ๊ฐ™์€ protocol๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค.
  • ์ •๋‹ต์€ ํ•˜๋‚˜๊ฐ€ ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค.
  • negative option์€ ์ •๋ง ํ‹€๋ฆฐ์ง€ ์‹ ์ค‘ํ•˜๊ฒŒ ๊ฒ€์ฆํ•ด์•ผ ํ•œ๋‹ค.
  • ์‰ฌ์šด head-class ์žฅ๋ฉด๋ณด๋‹ค ์–ด๋ ค์šด multi-person ์žฅ๋ฉด์—์„œ ๋ชจ๋ธ ์ฐจ์ด๊ฐ€ ๋“œ๋Ÿฌ๋‚œ๋‹ค.

๐Ÿง  ๋‚˜์˜ ์ฝ”๋ฉ˜ํŠธ!

CrossHOI-Bench๋Š” HOI ์—ฐ๊ตฌ์—์„œ ๊ฝค ์ค‘์š”ํ•œ ์ „ํ™˜์ ์ฒ˜๋Ÿผ ๋А๊ปด์ง„๋‹ค.

๊ทธ๋™์•ˆ HOI Detection์€ ์ฃผ๋กœ โ€œ์‚ฌ๋žŒ box, ๊ฐ์ฒด box, interaction label์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งžํžˆ๋Š”๊ฐ€?โ€๋ผ๋Š” detection ์ค‘์‹ฌ ๋ฌธ์ œ๋กœ ๋‹ค๋ค„์กŒ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ VLM์ด ๋“ฑ์žฅํ•˜๋ฉด์„œ, ์ด์ œ ๋ชจ๋ธ์€ label id๋ฅผ ์ฐ๋Š” ๋Œ€์‹  ์ž์—ฐ์–ด๋กœ ์žฅ๋ฉด์„ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

๋ฌธ์ œ๋Š” ํ‰๊ฐ€ ๋ฐฉ์‹์ด ๊ทธ ๋ณ€ํ™”๋ฅผ ๋”ฐ๋ผ๊ฐ€์ง€ ๋ชปํ–ˆ๋‹ค๋Š” ์ ์ด๋‹ค.

CrossHOI-Bench๋Š” ๊ทธ ๊ฐ„๊ทน์„ ์ž˜ ์ฐŒ๋ฅธ๋‹ค.

ํŠนํžˆ ๋ณต์ˆ˜ ์ •๋‹ต ๊ฐ๊ด€์‹์ด๋ผ๋Š” ํ˜•์‹์ด ๋งˆ์Œ์— ๋“ ๋‹ค. ์™„์ „ํ•œ open-ended generation ํ‰๊ฐ€๋Š” ์•„์ง parsing๋„ ์–ด๋ ต๊ณ  ๊ณต์ •์„ฑ๋„ ์• ๋งคํ•˜๋‹ค. ๋ฐ˜๋Œ€๋กœ ๊ธฐ์กด exact-match ํ‰๊ฐ€๋Š” ๋„ˆ๋ฌด ๊ฒฝ์ง๋˜์–ด ์žˆ๋‹ค. CrossHOI-Bench๋Š” ๊ทธ ์ค‘๊ฐ„ ์ง€์ ์—์„œ, ํ‰๊ฐ€๋ฅผ ํ†ต์ œ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉด์„œ๋„ VLM์˜ ์œ ์—ฐ์„ฑ์„ ์–ด๋А ์ •๋„ ์ธ์ •ํ•œ๋‹ค.

๋˜ ํ•˜๋‚˜ ์ธ์ƒ์ ์ธ ์ ์€ ๊ฒฐ๊ณผ ํ•ด์„์ด ๊ท ํ˜• ์žกํ˜€ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

โ€œVLM์ด ๋‹ค ์ด๊ฒผ๋‹ค!โ€๊ฐ€ ์•„๋‹ˆ๋ผ,

  • VLM์€ ๋„“์€ ์˜๋ฏธ ์ดํ•ด์™€ zero-shot generalization์— ๊ฐ•ํ•˜๊ณ 
  • HOI ์ „์šฉ ๋ชจ๋ธ์€ localization๊ณผ multi-action ๊ตฌ์กฐ์— ๊ฐ•ํ•˜๋ฉฐ
  • ๋‘˜ ๋‹ค cross-person attribution๊ณผ fine-grained interaction ๊ตฌ๋ถ„์—์„œ๋Š” ์•„์ง ์–ด๋ ต๋‹ค

๋ผ๊ณ  ์ •๋ฆฌํ•œ๋‹ค.

์‹ค๋ฌด์ ์œผ๋กœ๋„ ์ด ๋ฉ”์‹œ์ง€๋Š” ์ค‘์š”ํ•˜๋‹ค.

๋กœ๋ด‡, CCTV ๋ถ„์„, ์Šคํฌ์ธ  ๋ถ„์„, ์˜๋ฃŒ/๋Œ๋ด„ ๋ชจ๋‹ˆํ„ฐ๋ง์ฒ˜๋Ÿผ โ€œ๋ˆ„๊ฐ€ ๋ฌด์—‡์„ ํ•˜๊ณ  ์žˆ๋Š”์ง€โ€๋ฅผ ์ •ํ™•ํžˆ ์•Œ์•„์•ผ ํ•˜๋Š” ์‹œ์Šคํ…œ์—์„œ๋Š” ๋‹จ์ˆœํžˆ ๋Œ€ํ˜• VLM ํ•˜๋‚˜๋งŒ ๋ฏฟ๊ธฐ ์–ด๋ ต๋‹ค. target person์„ ์ •ํ™•ํžˆ ์žก๊ณ , ์ฃผ๋ณ€ ์‚ฌ๋žŒ๊ณผ ๊ฐ์ฒด๋ฅผ ๋ถ„๋ฆฌํ•˜๊ณ , ๋™์‹œ์— ๋ฐœ์ƒํ•˜๋Š” ์—ฌ๋Ÿฌ action์„ ๋น ๋œจ๋ฆฌ์ง€ ์•Š๋Š” ๊ตฌ์กฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๋ฐ˜๋Œ€๋กœ open-world ํ™˜๊ฒฝ์—์„œ ๊ธฐ์กด label set ๋ฐ–์˜ ์ƒํ˜ธ์ž‘์šฉ๊นŒ์ง€ ๋„“๊ฒŒ ์ดํ•ดํ•ด์•ผ ํ•œ๋‹ค๋ฉด VLM์˜ ์žฅ์ ์ด ํฌ๋‹ค.

๊ทธ๋ž˜์„œ ์•ž์œผ๋กœ๋Š” VLM์˜ ๋„“์€ ์ƒ์‹๊ณผ HOI detector์˜ ๊ตฌ์กฐ์  grounding์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋ฐฉํ–ฅ์ด ๋” ์ค‘์š”ํ•ด์งˆ ๊ฒƒ ๊ฐ™๋‹ค.

CrossHOI-Bench๋Š” ๊ทธ ๋ฐฉํ–ฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ข‹์€ ์‹œํ—˜์ง€๋‹ค.

This post is licensed under CC BY 4.0 by the author.