๐ SHOE: Open-Vocabulary HOI๋ฅผ ์๋ฏธ์ ์ผ๋ก ํ๊ฐํ๊ธฐ (CVPR 2026 Workshop)
๐ SHOE ๋ ผ๋ฌธ ์ฝ๊ธฐ!
๋ ผ๋ฌธ: SHOE: Semantic HOI Open-Vocabulary Evaluation Metric
์ ์: Maja Noack, Qinqian Lei, Taipeng Tian, Bihan Dong, Robby T. Tan, Yixin Chen, John Young, Saijun Zhang, Bo Wang
ํํ: CVPR 2026 Workshop on Grounding and Reasoning with Vision-Language Models (GRAIL-V)
์ฝ๋: https://github.com/majnoa/SHOE
ํ ์ค ์์ฝ: Open-vocabulary HOI ์์ธก์์lean on couch์sit on couch์ฒ๋ผ ํํ์ ๋ค๋ฅด์ง๋ง ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์ด ๋ต์ ๋ฌด์กฐ๊ฑด ์ค๋ต ์ฒ๋ฆฌํ์ง ์๊ธฐ ์ํด, HOI label ๊ฐ semantic similarity๋ฅผ ๋ฐ์ํ๋ ํ๊ฐ metric์ ์ ์ํ๋ค!!
๐งฉ ๋จผ์ HOI Detection๊ณผ Open-Vocabulary ๋ฌธ์ ๊ฐ ๋ญ๊ฐ?
HOI Detection์ Human-Object Interaction Detection์ ์ค์๋ง์ด๋ค.
์ด๋ฏธ์ง ์์์ ๋จ์ํ ์ฌ๋๊ณผ ๋ฌผ์ฒด๋ฅผ ์ฐพ๋ ๊ฒ์ ๋์ด์,
- ์ฌ๋์ด ์ด๋ค ๊ฐ์ฒด์ ์ํธ์์ฉํ๋์ง
- ๊ทธ ์ํธ์์ฉ์ด ์ด๋ค ํ๋์ธ์ง
- ์ต์ข
์ ์ผ๋ก
<person, verb, object>๊ด๊ณ๊ฐ ๋ฌด์์ธ์ง
๋ฅผ ์์ธกํ๋ ๋ฌธ์ ๋ค.
์๋ฅผ ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
<person, ride, bicycle><person, hold, cup><person, sit on, couch><person, lean on, couch><person, inspect, laptop>
๊ธฐ์กด HOI benchmark์์๋ ๋ณดํต ๋ฏธ๋ฆฌ ์ ํด์ง class ๋ชฉ๋ก์ด ์๋ค. ์๋ฅผ ๋ค์ด HICO-DET์ 600๊ฐ์ HOI class๋ฅผ ์ ์ํด๋๊ณ , ๋ชจ๋ธ์ด ๊ทธ class๋ฅผ ์ผ๋ง๋ ์ ๋งํ๋์ง ํ๊ฐํ๋ค.
ํ์ง๋ง ์์ฆ์ CLIP, VLM, MLLM ๊ฐ์ ๋ชจ๋ธ ๋๋ถ์ ์ํฉ์ด ๋ฌ๋ผ์ก๋ค.
๋ชจ๋ธ์ด ๊ผญ ์ ํด์ง label๋ง ์ถ๋ ฅํ๋ ๊ฒ์ด ์๋๋ผ, ์์ฐ์ด๋ก ๋ ์์ ๋กญ๊ฒ interaction์ ๋งํ ์ ์๋ค.
์ด๊ฒ์ด open-vocabulary HOI detection์ ํต์ฌ์ด๋ค.
๋ฏธ๋ฆฌ ์ ํด์ง 600๊ฐ label ์์์๋ง ๋งํ๋ ๊ฒ์ด ์๋๋ผ, ์ค์ ์ธ๊ณ์์ ๋ฑ์ฅํ ์ ์๋ ๋ค์ํ ์ฌ๋-๊ฐ์ฒด ์ํธ์์ฉ์ ๋ ๋๊ฒ ํํํ๊ณ ํ๊ฐํ์!
์ข์ ๋ฐฉํฅ์ด์ง๋ง, ์ฌ๊ธฐ์ ํฐ ๋ฌธ์ ๊ฐ ์๊ธด๋ค.
๐จ ๊ธฐ์กด mAP ํ๊ฐ์ ๋ฌธ์ : ์๋ฏธ๊ฐ ๋น์ทํด๋ ํ๋ ธ๋ค๊ณ ๋ณธ๋ค!
HOI Detection์์๋ ๋ณดํต mAP(mean Average Precision)๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ค.
mAP๋ detection ๋ถ์ผ์์ ์ค๋ซ๋์ ์ฐ์ธ ํ์ค metric์ด๋ค. bounding box๊ฐ ๋ง๋์ง ๋ณด๊ณ , class label์ด ๋ง๋์ง ๋ณด๊ณ , confidence score ์์๋๋ก precision-recall์ ๊ณ์ฐํ๋ค.
๋ฌธ์ ๋ ๊ธฐ์กด mAP๊ฐ HOI class๋ฅผ ์์ ํ ๋ถ๋ฆฌ๋ discrete label๋ก ๋ณธ๋ค๋ ์ ์ด๋ค.
์๋ฅผ ๋ค์ด ์ ๋ต์ด ๋ค์๊ณผ ๊ฐ๋ค๊ณ ํ์.
- Ground Truth:
sit on couch
๊ทธ๋ฐ๋ฐ ๋ชจ๋ธ์ด ์ด๋ ๊ฒ ์์ธกํ๋ค.
- Prediction:
lean on couch
์ฌ๋์ด ๋ณด๊ธฐ์๋ ๊ฝค ๋น์ทํ ์ํฉ์ผ ์ ์๋ค. ์ํ์ ์์ ๊ธฐ๋๊ณ ์๋ ์ฅ๋ฉด์ด๋ผ๋ฉด ๋ ํํ์ด ๋ชจ๋ ์ด๋ ์ ๋ ํ๋นํ ์ ์๋ค.
ํ์ง๋ง ๊ธฐ์กด exact-match ๊ธฐ๋ฐ ํ๊ฐ์์๋ label์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ํ๋ ธ๋ค๊ณ ์ฒ๋ฆฌ๋๋ค.
๋ ๋ค๋ฅธ ์๋ ์๋ค.
ride bicyclevscycle bicyclehold cupvsgrasp cuplook at phonevsinspect phonesit on chairvsrest on chair
์ด๋ฐ ํํ๋ค์ ์์ ํ ๊ฐ์ง๋ ์์ง๋ง, ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์ธ ์ ์๋ค.
Open-vocabulary ๋ชจ๋ธ์ ํ๊ฐํ ๋ ์ด๋ฐ ์ฐจ์ด๋ฅผ ๋ชจ๋ 0์ ์ฒ๋ฆฌํ๋ฉด, ๋ชจ๋ธ์ ์ค์ ์ดํด ๋ฅ๋ ฅ์ ๊ณผ์ํ๊ฐํ ์ ์๋ค.
SHOE๋ ๋ฐ๋ก ์ด ์ง์ ์ ๊ฒจ๋ฅํ๋ค.
โHOI ํ๊ฐ์์ label string์ด ์ ํํ ๊ฐ์์ผ๋ง ๋ง์๋ค๊ณ ๋ณผ ๊ฒ์ด ์๋๋ผ, ์ฌ๋์ฒ๋ผ ์๋ฏธ์ ์ ์ฌ๋๋ฅผ ๋ฐ์ํด์ ํ๊ฐํ์!โ
๐ SHOE์ ํต์ฌ ์์ด๋์ด
SHOE๋ Semantic HOI Open-Vocabulary Evaluation์ ์ฝ์๋ค.
ํต์ฌ์ ๋จ์ํ๋ค.
๊ธฐ์กด ํ๊ฐ๊ฐ ์์ธก๊ณผ ์ ๋ต์ ์ด๋ ๊ฒ ๋ดค๋ค๋ฉด,
1
์์ธก label == ์ ๋ต label ? 1์ : 0์
SHOE๋ ์ด๋ ๊ฒ ๋ณธ๋ค.
1
์์ธก HOI์ ์ ๋ต HOI๊ฐ ์๋ฏธ์ ์ผ๋ก ์ผ๋ง๋ ๊ฐ๊น์ด๊ฐ?
์๋ฅผ ๋ค์ด,
sit on couch์lean on couch๋ 0์ ๋ณด๋ค๋ ๋์ ์ ์๋ฅผ ๋ฐ์ ์ ์๊ณsit on couch์eat apple์ ๊ฑฐ์ 0์ ์ ๊ฐ๊น์์ผ ํ๋ค.
์ฆ, SHOE๋ binary correct/incorrect๊ฐ ์๋๋ผ graded semantic similarity๋ฅผ ํ๊ฐ์ ๋ฃ๋๋ค.
์ด ๋ฐฉ์์ open-vocabulary ๋ชจ๋ธ์๊ฒ ํนํ ์ค์ํ๋ค. VLM์ด๋ MLLM์ ๊ธฐ์กด dataset label๊ณผ ๋๊ฐ์ ๋จ์ด๋ฅผ ์ถ๋ ฅํ์ง ์์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๐ SHOE๋ HOI๋ฅผ verb์ object๋ก ๋๋ ๋ณธ๋ค
SHOE์ ์ข์ ์ ์ HOI๋ฅผ ํ๋์ ํต์ง label๋ก๋ง ๋ณด์ง ์๋๋ค๋ ๊ฒ์ด๋ค.
HOI๋ ๊ธฐ๋ณธ์ ์ผ๋ก verb + object ์กฐํฉ์ด๋ค.
์๋ฅผ ๋ค๋ฉด,
ride bicycle= verb:ride, object:bicyclesit on couch= verb:sit on, object:couchhold cup= verb:hold, object:cup
SHOE๋ ์์ธก HOI์ ์ ๋ต HOI๋ฅผ ๊ฐ๊ฐ verb component์ object component๋ก ๋ถํดํ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ ๋ถ๋ถ์ semantic similarity๋ฅผ ๋ฐ๋ก ๊ณ์ฐํ๋ค.
1
2
verb similarity = ์์ธก verb์ ์ ๋ต verb๊ฐ ์ผ๋ง๋ ๋น์ทํ๊ฐ?
object similarity = ์์ธก object์ ์ ๋ต object๊ฐ ์ผ๋ง๋ ๋น์ทํ๊ฐ?
๋ง์ง๋ง์ผ๋ก ๋ ๊ฐ์ ํ๊ท ๋ด์ ํ๋์ HOI similarity score๋ฅผ ๋ง๋ ๋ค.
1
sim(pred, gt) = (verb_sim + object_sim) / 2
์ด๋ ๊ฒ ํ๋ฉด ๋ ์ฌ์ธํ ํ๊ฐ๊ฐ ๊ฐ๋ฅํด์ง๋ค.
์๋ฅผ ๋ค์ด sit on couch์ sit on chair๋ verb๋ ๊ฐ์ง๋ง object๊ฐ ๋ค๋ฅด๋ค. ๋ฐ๋๋ก sit on couch์ lean on couch๋ object๋ ๊ฐ๊ณ verb๊ฐ ๋น์ทํ๋ค.
๊ธฐ์กด exact-match์์๋ ๋ ๋ค ๊ทธ๋ฅ ์ค๋ต์ด์ง๋ง, SHOE์์๋ ๋ ๊ฒฝ์ฐ๋ฅผ ๋ค๋ฅด๊ฒ ํ๊ฐํ ์ ์๋ค.
๐ง Semantic similarity๋ ์ด๋ป๊ฒ ๊ณ์ฐํ๋?
SHOE๋ verb์ object์ ์๋ฏธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด WordNet synset๊ณผ ์ฌ๋ฌ LLM์ ํ๋จ์ ํ์ฉํ๋ค.
GitHub README ๊ธฐ์ค์ผ๋ก repository์๋ ๋ค์๊ณผ ๊ฐ์ annotation ํ์ผ๋ค์ด ํฌํจ๋์ด ์๋ค.
hico_verbs_with_synsets.csv: HICO verb์ WordNet synset mappinghico_objects_with_synsets.csv: HICO object์ WordNet synset mappingverb_shoe_scores.csv: verb synset pair ๊ฐ semantic similarityobject_shoe_scores.csv: object synset pair ๊ฐ semantic similarity
์ฆ, ํ๊ฐํ ๋๋ง๋ค LLM์ ์๋ก ํธ์ถํ๋ ๊ฒ์ด ์๋๋ผ, ๋ฏธ๋ฆฌ ๊ณ์ฐ๋ similarity table์ ์ฌ์ฉํ๋ค.
์ด ๋ฐฉ์์ ์ค์ฉ์ ์ผ๋ก ์ค์ํ๋ค.
ํ๊ฐ metric์ด ๋งค๋ฒ ๋น์ผ LLM inference๋ฅผ ์๊ตฌํ๋ฉด ์ฌํ์ฑ๊ณผ ๋น์ฉ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์๋ค. SHOE๋ ๋ฏธ๋ฆฌ ๊ตฌ์ถ๋ score table์ ํ์ฉํ์ฌ, ๊ธฐ์กด benchmark ํ๊ฐ์ฒ๋ผ ๋น๊ต์ ์์ ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋ง๋ ๋ค.
README์์๋ SHOE similarity table์ด HICO-DET์ 600๊ฐ class๋ฅผ ๋์ด์, 3,800๋ง ๊ฐ ์ด์์ semantically related HOI label ์กฐํฉ์ผ๋ก ํ์ฅ๋๋ค๊ณ ์ค๋ช ํ๋ค.
์ฆ, ๊ธฐ์กด HICO-DET label space ์์์ ์์ํ์ง๋ง, open-vocabulary ์์ธก์ ๋ ๋๊ฒ ๋ฐ์๋ค์ผ ์ ์๋ ํ๊ฐ ๊ณต๊ฐ์ ๋ง๋ ๊ฒ์ด๋ค.
โ๏ธ SHOE Matching์ ์ด๋ป๊ฒ ๋์ํ๋?
SHOE๋ ๋จ์ํ text similarity๋ง ๋ณด๋ metric์ด ์๋๋ค.
HOI Detection ํ๊ฐ์ด๊ธฐ ๋๋ฌธ์ localization๋ ํจ๊ป ๋ณธ๋ค.
์ ์ฒด ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
1. Bounding box๋ฅผ ๋จผ์ ํ์ธํ๋ค
์์ธกํ human box์ object box๊ฐ ์ ๋ต box์ ์ถฉ๋ถํ ๊ฒน์ณ์ผ ํ๋ค.
README ๊ธฐ์ค์ผ๋ก ๊ธฐ๋ณธ threshold๋ min(IoU_human, IoU_object) >= 0.5๋ค.
์ฆ, ์ฌ๋์ด ์ด๋ ์๋์ง, ๊ฐ์ฒด๊ฐ ์ด๋ ์๋์ง ์์ ํ ํ๋ ธ๋ค๋ฉด semantic label์ด ๋น์ทํด๋ ์ข์ ์ ์๋ฅผ ๋ฐ์ ์ ์๋ค.
2. Verb์ object๋ฅผ synset์ผ๋ก ๋งคํํ๋ค
์์ธก label๊ณผ ์ ๋ต label์ verb/object๋ฅผ WordNet synset์ผ๋ก ์ฐ๊ฒฐํ๋ค.
์๋ฅผ ๋ค์ด bike์ bicycle์ฒ๋ผ ํ๋ฉด ๋จ์ด๊ฐ ๋ฌ๋ผ๋ ๊ฐ์ ๊ฐ๋
์ผ๋ก ์ฐ๊ฒฐ๋ ์ ์๋ค.
3. Verb similarity์ object similarity๋ฅผ ๊ฐ์ ธ์จ๋ค
๋ฏธ๋ฆฌ ๊ณ์ฐ๋ SHOE score table์์ verb pair์ object pair์ ์ ์ฌ๋๋ฅผ ๊ฐ์ ธ์จ๋ค.
4. ํ๋์ instance similarity๋ฅผ ๋ง๋ ๋ค
๋ ๊ฐ์ ํ๊ท ๋ด์ HOI similarity๋ฅผ ๊ณ์ฐํ๋ค.
1
sim(pred, gt) = (verb_sim + object_sim) / 2
5. Soft TP / FP / FN์ผ๋ก ๊ณ์ฐํ๋ค
๊ธฐ์กด ํ๊ฐ๋ ๋ง์ผ๋ฉด TP 1๊ฐ, ํ๋ฆฌ๋ฉด FP 1๊ฐ์ฒ๋ผ ๋ฑ ์๋ผ ๊ณ์ฐํ๋ค.
SHOE๋ matched prediction์ด ์ ๋ต๊ณผ 0.8๋งํผ ๋น์ทํ๋ฉด,
1
2
TP += 0.8
FP += 0.2
์ฒ๋ผ softํ๊ฒ ๋ฐ์ํ๋ค.
๋ฐ๋๋ก match๋์ง ์์ prediction์ full FP, match๋์ง ์์ ground truth๋ full FN์ด ๋๋ค.
์ด ๋ฐฉ์์ด SHOE์ ํต์ฌ์ด๋ค.
์์ ํ ๋ง์ง๋ ์์์ง๋ง ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์ด ์์ธก์ ๋ถ๋ถ ์ ์๋ฅผ ๋ฐ๊ณ , ์์ ํ ์๋ฑํ ์์ธก์ ๊ฑฐ์ ์ ์๋ฅผ ๋ฐ์ง ๋ชปํ๋ค.
๐ SHOE mAP์ SHOE mF1
SHOE๋ ๋ ๊ฐ์ง ํ๊ฐ ๋ชจ๋๋ฅผ ์ ๊ณตํ๋ค.
SHOE mAP
SHOE mAP๋ confidence score๊ฐ ์๋ ๋ชจ๋ธ์ ์ํ ํ๊ฐ๋ค.
์ผ๋ฐ์ ์ธ HOI detector์ฒ๋ผ ๊ฐ prediction์ confidence score๊ฐ ์์ผ๋ฉด, score ์์๋๋ก precision-recall curve๋ฅผ ๋ง๋ค๊ณ AP๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
๋ค๋ง ๊ธฐ์กด mAP์ฒ๋ผ exact match๋ฅผ ์ฐ๋ ๋์ , SHOE similarity ๊ธฐ๋ฐ soft count๋ฅผ ์ฌ์ฉํ๋ค.
๊ทธ๋์ structured HOI detector ํ๊ฐ์ ์ ๋ง๋๋ค.
SHOE mF1
SHOE mF1์ confidence score ์์ด๋ ์ธ ์ ์๋ ํ๊ฐ๋ค.
VLM์ด๋ MLLM์ฒ๋ผ ์์ฐ์ด ์์ธก์ ๋ด๋ ๋ชจ๋ธ์ ํญ์ ์ ๋ขฐ๋ ์ ์๋ฅผ ๊น๋ํ๊ฒ ์ ๊ณตํ์ง ์๋๋ค.
์ด๋ฐ ๊ฒฝ์ฐ SHOE mF1์ด ์ ์ฉํ๋ค.
๋ชจ๋ prediction์ ๋์ผํ๊ฒ ๋ณด๊ณ , semantic similarity ๊ธฐ๋ฐ์ผ๋ก precision, recall, F1์ ๊ณ์ฐํ๋ค.
GitHub README์์๋ ๋ ๋ชจ๋๋ฅผ ๋ค์์ฒ๋ผ ๊ตฌ๋ถํ๋ค.
- SHOE mAP: confidence-ranked, score๊ฐ ์๋ ๋ชจ๋ธ์ฉ
- SHOE mF1: confidence-free, score๊ฐ ์๋ open-vocabulary prediction์๋ ์ฌ์ฉ ๊ฐ๋ฅ
์ฆ, SHOE๋ ๊ธฐ์กด HOI detector์ open-ended generative model์ ๋ชจ๋ ํ๊ฐํ๋ ค๋ metric์ด๋ค.
๐ ์ฌ๋ ํ๋จ๊ณผ ์ผ๋ง๋ ์ ๋ง๋?
SHOE๊ฐ ์ฃผ์ฅํ๋ ํต์ฌ ์คํ ๊ฒฐ๊ณผ๋ human judgment์์ ์ ๋ ฌ์ด๋ค.
๋ ผ๋ฌธ๊ณผ README์ ๋ฐ๋ฅด๋ฉด SHOE๋ ํ๊ท human rating๊ณผ 85.73% agreement๋ฅผ ๋ฌ์ฑํ๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์ ์ด๊ฒ์ด human inter-annotator agreement์ธ 78.61%๋ณด๋ค๋ ๋๊ณ , direct LLM scoring์ด๋ embedding-based baseline๋ณด๋ค๋ ์ข์๋ค๋ ์ ์ด๋ค.
์ด ๊ฒฐ๊ณผ๊ฐ ์๋ฏธํ๋ ๋ฐ๋ ํฌ๋ค.
ํ๊ฐ metric์ ๊ฒฐ๊ตญ ์ฌ๋์ด ๋ณด๊ธฐ์ ํ๋นํด์ผ ํ๋ค.
์ฌ๋์ด ๋ณด๊ธฐ์๋ lean on couch๊ฐ sit on couch์ ์ด๋ ์ ๋ ๋น์ทํ๋ฐ, metric์ด 0์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค๋ฉด ๊ทธ metric์ open-vocabulary ํ๊ฐ์ ์ ํฉํ์ง ์๋ค.
SHOE๋ ์ฌ๋ฌ LLM์ ํ๋จ์ ํ๊ท ํ๊ณ , verb/object๋ฅผ ๋ถ๋ฆฌํ๊ณ , HOI ๊ตฌ์กฐ์ ๋ง๊ฒ similarity๋ฅผ ์กฐํฉํจ์ผ๋ก์จ ์ฌ๋์ ์๋ฏธ ํ๋จ์ ๋ ๊ฐ๊น์ด ํ๊ฐ๋ฅผ ๋ง๋ค๋ ค๊ณ ํ๋ค.
๐ GitHub ์ ์ฅ์์์ ํ์ธํ ์ ์๋ ๊ฒ
๊ณต๊ฐ๋ GitHub ์ ์ฅ์์๋ SHOE ํ๊ฐ๋ฅผ ์คํํ๊ธฐ ์ํ ์ฝ๋์ ์์ prediction์ด ํฌํจ๋์ด ์๋ค.
์ฃผ์ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
annotations/: ground truth, synset mapping, pre-computed SHOE score tablepredictions/: Qwen, LAIN ์์ prediction CSVf1_soft.py: SHOE mF1 evaluatormap_soft.py: SHOE mAP evaluatorshoef1.sh: SHOE mF1 quick-run scriptshoemap.sh: SHOE mAP quick-run script
์ ๋ ฅ prediction CSV๋ ๋๋ต ๋ค์ ์ ๋ณด๋ฅผ ํฌํจํด์ผ ํ๋ค.
- image filename
- human bounding box
- object bounding box
- predicted verb
- predicted object
- verb synsets
- object synsets
- confidence score
confidence score๋ SHOE mAP์์๋ ํ์์ด๊ณ , SHOE mF1์์๋ filtering์ ์ฌ์ฉํ ์ ์๋ค.
README์์๋ open-vocabulary model์ด discrete confidence score๋ฅผ ๋ด์ง ์๋ ๊ฒฝ์ฐ token probability๋ฅผ proxy๋ก ์ฌ์ฉํ ์ ์๋ค๊ณ ์ค๋ช ํ๋ค.
๐งญ CrossHOI-Bench์๋ ๋ญ๊ฐ ๋ค๋ฅธ๊ฐ?
์ต๊ทผ HOI ํ๊ฐ ์ฐ๊ตฌ๋ฅผ ๋ณด๋ฉด CrossHOI-Bench์ SHOE๊ฐ ๋น์ทํ ๋ฌธ์ ์์์ ๊ณต์ ํ๋ค.
๋ ๋ค ๊ธฐ์กด HOI ํ๊ฐ๊ฐ ๋๋ฌด rigidํ๋ค๋ ์ ์ ์ง์ ํ๋ค.
ํ์ง๋ง ์ ๊ทผ ๋ฐฉ์์ ๋ค๋ฅด๋ค.
CrossHOI-Bench๋ benchmark format์ ๋ฐ๊พผ๋ค.
- HOI๋ฅผ ๋ณต์ ์ ๋ต ๊ฐ๊ด์ ๋ฌธ์ ๋ก ์ฌ๊ตฌ์ฑ
- curated negative๋ฅผ ์ ๊ณต
- VLM๊ณผ HOI ์ ์ฉ ๋ชจ๋ธ์ ๊ฐ์ question format์ผ๋ก ๋น๊ต
๋ฐ๋ฉด SHOE๋ evaluation metric์ ๋ฐ๊พผ๋ค.
- ๊ธฐ์กด prediction๊ณผ ground truth๋ฅผ ๊ทธ๋๋ก ๋๋
- exact label match ๋์ semantic similarity๋ฅผ ์ฌ์ฉ
- mAP/mF1 ๊ณ์ฐ์ soft score๋ฅผ ๋ฐ์
์ฆ, CrossHOI-Bench๊ฐ โ์ํ์ง๋ฅผ ์๋ก ๋ง๋ค์โ์ ๊ฐ๊น๋ค๋ฉด, SHOE๋ โ์ฑ์ ๋ฐฉ์์ ๋ ์๋ฏธ์ ์ผ๋ก ๋ง๋ค์โ์ ๊ฐ๊น๋ค.
๋์ ๊ฒฝ์ ๊ด๊ณ๋ผ๊ธฐ๋ณด๋ค ์๋ก ๋ณด์์ ์ด๋ค.
Open-vocabulary HOI ์๋์๋ ์ข์ benchmark๋ ํ์ํ๊ณ , ์ข์ semantic metric๋ ํ์ํ๋ค.
๐ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ ์ด์
SHOE๊ฐ ์ค์ํ ์ด์ ๋ ํ๊ฐ๊ฐ ๋ชจ๋ธ ๊ฐ๋ฐ ๋ฐฉํฅ์ ๋ฐ๊พธ๊ธฐ ๋๋ฌธ์ด๋ค.
metric์ด exact label match๋ง ๋ณด๊ฒ ๋๋ฉด, ๋ชจ๋ธ์ ์ฌ๋์ด ๋ณด๊ธฐ์๋ ๋ง๋ ํํ์ ํด๋ ์ ์๋ฅผ ๋ชป ๋ฐ๋๋ค.
๊ทธ๋ฌ๋ฉด ์ฐ๊ตฌ์๋ ๊ฒฐ๊ตญ benchmark label์ ๋ฑ ๋ง๋ ๋ต์ ๋ด๋๋ก ๋ชจ๋ธ์ ์กฐ์ ํ๊ฒ ๋๋ค.
ํ์ง๋ง open-vocabulary vision-language model์ ์ฅ์ ์ label set ๋ฐ์ ํํ๋ ฅ์ด๋ค.
๋ชจ๋ธ์ด grasp cup, hold cup, pick up cup์ฒ๋ผ ๋ค์ํ ํํ์ ํ ์ ์๋ค๋ฉด, ํ๊ฐ metric๋ ๊ทธ ์ฐจ์ด๋ฅผ ์ด๋ ์ ๋ ์ดํดํด์ผ ํ๋ค.
SHOE๋ ์ด ๋ฌธ์ ๋ฅผ ๋ค์์ฒ๋ผ ์ ๋ฆฌํ๋ค.
- HOI label์ ๋จ์ class id๊ฐ ์๋๋ผ ์๋ฏธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค.
- verb์ object์ ์ ์ฌ๋๋ฅผ ๋ฐ๋ก ๋ด์ผ ํ๋ค.
- localization์ด ๋ง๋ ์์ธก์ ๋ํด์๋ semantic partial credit์ ์ค ์ ์๋ค.
- confidence๊ฐ ์๋ detector์ confidence๊ฐ ์๋ generative model ๋ชจ๋ ํ๊ฐํด์ผ ํ๋ค.
์ด ๊ด์ ์ ์์ผ๋ก ๋ ์ค์ํด์ง ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค.
VLM์ด ๋ฐ์ ํ ์๋ก ๋ชจ๋ธ ์ถ๋ ฅ์ ์ ์ ๋ ์์ฐ์ด์ ๊ฐ๊น์์ง ๊ฒ์ด๊ณ , ํ๊ฐ๋ ๋จ์ label matching์์ semantic evaluation์ผ๋ก ์ด๋ํ ์๋ฐ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
โ ๏ธ ๊ทธ๋๋ ์กฐ์ฌํด์ ๋ด์ผ ํ ์
SHOE๊ฐ ๋งค์ฐ ํฅ๋ฏธ๋ก์ด metric์ด์ง๋ง, ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ์๋๋ค.
์ฒซ์งธ, semantic similarity๊ฐ ๋๋ค๊ณ ํด์ ํญ์ ์๊ฐ์ ์ผ๋ก ๋ง๋ ๊ฒ์ ์๋๋ค.
์๋ฅผ ๋ค์ด sit on couch์ lean on couch๊ฐ ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์๋, ํน์ ์ด๋ฏธ์ง์์๋ ๋ ์ค ํ๋๋ง ์ ํํ ์ ์๋ค.
๋ฐ๋ผ์ SHOE ์ ์๋ โ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์ด ์ ๋โ๋ฅผ ๋ฐ์ํ๋ ๊ฒ์ด์ง, ๋ชจ๋ ์๊ฐ์ ์ธ๋ถ ์ฐจ์ด๋ฅผ ์๋ฒฝํ๊ฒ ํ์ ํ๋ ๊ฒ์ ์๋๋ค.
๋์งธ, LLM ๊ธฐ๋ฐ similarity table ์์ฒด์๋ bias๊ฐ ์์ ์ ์๋ค.
์ฌ๋ฌ LLM ํ๊ท ์ ์ฐ๊ณ human judgment์ ๋น๊ตํ๋ค๋ ์ ์ ๊ฐ์ ์ด์ง๋ง, ์ธ์ด์ ์ ์ฌ๋์ ์ค์ ์๊ฐ์ affordance๊ฐ ์ธ์ ๋ ์ผ์นํ์ง๋ ์๋๋ค.
์ ์งธ, WordNet synset mapping์ด ํ์ํ ๋งํผ, ์์ ํ ์์ ๋ก์ด ์์ฐ์ด ํํ์ ๋ค๋ฃจ๋ ค๋ฉด preprocessing ํ์ง๋ ์ค์ํ๋ค.
์ฆ, SHOE๋ exact-match mAP๋ฅผ ๋์ฒดํ ์ ์๋ ๊ฐ๋ ฅํ ํ๋ณด์ด์ง๋ง, ํนํ open-vocabulary ํ๊ฐ์์๋ ๊ธฐ์กด metric๊ณผ ํจ๊ป ๋ณด๋ฉด์ ํด์ํ๋ ๊ฒ์ด ์ข๋ค.
๐ง ๋์ ์ฝ๋ฉํธ!
SHOE๋ โํ๊ฐ metric๋ ์ด์ ์ธ์ด๋ฅผ ์ดํดํด์ผ ํ๋คโ๋ ํ๋ฆ์ ์ ๋ณด์ฌ์ฃผ๋ ์ฐ๊ตฌ๋ผ๊ณ ๋๊ปด์ง๋ค.
๊ธฐ์กด computer vision ํ๊ฐ์์๋ label์ด ๋ง๋ ํ๋ฆฌ๋๊ฐ ์ค์ํ๋ค. cat์ด๋ฉด cat, dog์ด๋ฉด dog์ฒ๋ผ class๊ฐ ๋ถ๋ฆฌ๋์ด ์์๊ธฐ ๋๋ฌธ์ด๋ค.
ํ์ง๋ง HOI๋ ํจ์ฌ ๋ ์ธ์ด์ ์ด๋ค.
hold, grasp, carry, pick up์ ์๋ก ๊ฒน์น๋ ์๋ฏธ๊ฐ ์๊ณ , sit on, lean on, rest on๋ ์ด๋ฏธ์ง์ ๋ฐ๋ผ ๊ฒฝ๊ณ๊ฐ ํ๋ฆด ์ ์๋ค.
ํนํ VLM์ด ๋ฑ์ฅํ ์ดํ์๋ ๋ชจ๋ธ์ด ์ฌ๋์ด ๋งํ๋ฏ ๋ต์ ๋ด๊ธฐ ๋๋ฌธ์, ํ๊ฐ๋ ์ฌ๋์ด ์ดํดํ๋ฏ ์ด๋ ์ ๋์ ์๋ฏธ์ ์ ์ฐ์ฑ์ ๊ฐ์ ธ์ผ ํ๋ค.
๊ทธ๋ฐ ์ ์์ SHOE๋ open-vocabulary HOI ์ฐ๊ตฌ์ ๊ฝค ์ค์ฉ์ ์ธ ๋๊ตฌ๊ฐ ๋ ์ ์๋ค.
๋์๊ฒ ๊ฐ์ฅ ์ธ์์ ์ธ ๋ถ๋ถ์ SHOE๊ฐ ๋จ์ํ โLLM์๊ฒ ์ ์ ๋งค๊ฒจ๋ฌ๋ผโ๊ณ ํ์ง ์๋๋ค๋ ์ ์ด๋ค.
๋์ HOI๋ฅผ verb์ object๋ก ๋๋๊ณ , synset ๊ธฐ๋ฐ table์ ๋ง๋ค๊ณ , detection matching๊ณผ soft TP/FP/FN์ ๊ฒฐํฉํ๋ค.
์ฆ, ๊ธฐ์กด detection metric์ ๊ตฌ์กฐ๋ฅผ ๋ฒ๋ฆฌ์ง ์์ผ๋ฉด์, semantic similarity๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ๋ผ์ ๋ฃ๋๋ค.
์์ผ๋ก HOI๋ฟ ์๋๋ผ scene graph generation, visual relationship detection, embodied AI action recognition ๊ฐ์ ๋ถ์ผ์์๋ ๋น์ทํ semantic evaluation์ด ๋ ์ค์ํด์ง ๊ฒ ๊ฐ๋ค.
๊ฒฐ๊ตญ open-vocabulary ๋ชจ๋ธ์ ์ ๋๋ก ํ๊ฐํ๋ ค๋ฉด, ์ ๋ต ๋ฌธ์์ด์ ๋งํ๋์ง๊ฐ ์๋๋ผ ์ฌ๋์ด ๋ณด๊ธฐ์ ๊ฐ์ ์๋ฏธ์ ์๊ฐ์ ๊ด๊ณ๋ฅผ ์ดํดํ๋์ง๋ฅผ ๋ฌผ์ด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
SHOE๋ ๊ทธ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ ๊ฝค ๊น๋ํ ํ ๊ฑธ์์ด๋ค.