👟 SHOE: Open-Vocabulary HOI를 의미적으로 평가하기 (CVPR 2026 Workshop)

Posted Jun 12, 2026

By DrFirst

22 min read

👟 SHOE 논문 읽기!

논문: SHOE: Semantic HOI Open-Vocabulary Evaluation Metric
저자: Maja Noack, Qinqian Lei, Taipeng Tian, Bihan Dong, Robby T. Tan, Yixin Chen, John Young, Saijun Zhang, Bo Wang
학회: CVPR 2026 Workshop on Grounding and Reasoning with Vision-Language Models (GRAIL-V)
코드: https://github.com/majnoa/SHOE
한 줄 요약: Open-vocabulary HOI 예측에서 lean on couch와 sit on couch처럼 표현은 다르지만 의미적으로 가까운 답을 무조건 오답 처리하지 않기 위해, HOI label 간 semantic similarity를 반영하는 평가 metric을 제안한다!!

🧩 먼저 HOI Detection과 Open-Vocabulary 문제가 뭔가?

HOI Detection은 Human-Object Interaction Detection의 줄임말이다.

이미지 안에서 단순히 사람과 물체를 찾는 것을 넘어서,

사람이 어떤 객체와 상호작용하는지
그 상호작용이 어떤 행동인지
최종적으로 <person, verb, object> 관계가 무엇인지

를 예측하는 문제다.

예를 들면 다음과 같다.

<person, ride, bicycle>
<person, hold, cup>
<person, sit on, couch>
<person, lean on, couch>
<person, inspect, laptop>

기존 HOI benchmark에서는 보통 미리 정해진 class 목록이 있다. 예를 들어 HICO-DET은 600개의 HOI class를 정의해두고, 모델이 그 class를 얼마나 잘 맞히는지 평가한다.

하지만 요즘은 CLIP, VLM, MLLM 같은 모델 덕분에 상황이 달라졌다.

모델이 꼭 정해진 label만 출력하는 것이 아니라, 자연어로 더 자유롭게 interaction을 말할 수 있다.

이것이 open-vocabulary HOI detection의 핵심이다.

미리 정해진 600개 label 안에서만 맞히는 것이 아니라, 실제 세계에서 등장할 수 있는 다양한 사람-객체 상호작용을 더 넓게 표현하고 평가하자!

좋은 방향이지만, 여기서 큰 문제가 생긴다.

🚨 기존 mAP 평가의 문제: 의미가 비슷해도 틀렸다고 본다!

HOI Detection에서는 보통 mAP(mean Average Precision)를 많이 사용한다.

mAP는 detection 분야에서 오랫동안 쓰인 표준 metric이다. bounding box가 맞는지 보고, class label이 맞는지 보고, confidence score 순서대로 precision-recall을 계산한다.

문제는 기존 mAP가 HOI class를 완전히 분리된 discrete label로 본다는 점이다.

예를 들어 정답이 다음과 같다고 하자.

Ground Truth: sit on couch

그런데 모델이 이렇게 예측했다.

Prediction: lean on couch

사람이 보기에는 꽤 비슷한 상황일 수 있다. 소파에 앉아 기대고 있는 장면이라면 두 표현이 모두 어느 정도 타당할 수 있다.

하지만 기존 exact-match 기반 평가에서는 label이 다르기 때문에 틀렸다고 처리된다.

또 다른 예도 있다.

ride bicycle vs cycle bicycle
hold cup vs grasp cup
look at phone vs inspect phone
sit on chair vs rest on chair

이런 표현들은 완전히 같지는 않지만, 의미적으로 가까울 수 있다.

Open-vocabulary 모델을 평가할 때 이런 차이를 모두 0점 처리하면, 모델의 실제 이해 능력을 과소평가할 수 있다.

SHOE는 바로 이 지점을 겨냥한다.

“HOI 평가에서 label string이 정확히 같아야만 맞았다고 볼 것이 아니라, 사람처럼 의미적 유사도를 반영해서 평가하자!”

👟 SHOE의 핵심 아이디어

SHOE는 Semantic HOI Open-Vocabulary Evaluation의 약자다.

핵심은 단순하다.

기존 평가가 예측과 정답을 이렇게 봤다면,

예측 label == 정답 label ? 1점 : 0점

SHOE는 이렇게 본다.

예측 HOI와 정답 HOI가 의미적으로 얼마나 가까운가?

예를 들어,

sit on couch와 lean on couch는 0점보다는 높은 점수를 받을 수 있고
sit on couch와 eat apple은 거의 0점에 가까워야 한다.

즉, SHOE는 binary correct/incorrect가 아니라 graded semantic similarity를 평가에 넣는다.

이 방식은 open-vocabulary 모델에게 특히 중요하다. VLM이나 MLLM은 기존 dataset label과 똑같은 단어를 출력하지 않을 수 있기 때문이다.

🔍 SHOE는 HOI를 verb와 object로 나눠 본다

SHOE의 좋은 점은 HOI를 하나의 통짜 label로만 보지 않는다는 것이다.

HOI는 기본적으로 verb + object 조합이다.

예를 들면,

ride bicycle = verb: ride, object: bicycle
sit on couch = verb: sit on, object: couch
hold cup = verb: hold, object: cup

SHOE는 예측 HOI와 정답 HOI를 각각 verb component와 object component로 분해한다.

그리고 두 부분의 semantic similarity를 따로 계산한다.

verb similarity   = 예측 verb와 정답 verb가 얼마나 비슷한가?
object similarity = 예측 object와 정답 object가 얼마나 비슷한가?

마지막으로 두 값을 평균내서 하나의 HOI similarity score를 만든다.

sim(pred, gt) = (verb_sim + object_sim) / 2

이렇게 하면 더 섬세한 평가가 가능해진다.

예를 들어 sit on couch와 sit on chair는 verb는 같지만 object가 다르다. 반대로 sit on couch와 lean on couch는 object는 같고 verb가 비슷하다.

기존 exact-match에서는 둘 다 그냥 오답이지만, SHOE에서는 두 경우를 다르게 평가할 수 있다.

🧠 Semantic similarity는 어떻게 계산하나?

SHOE는 verb와 object의 의미 유사도를 계산하기 위해 WordNet synset과 여러 LLM의 판단을 활용한다.

GitHub README 기준으로 repository에는 다음과 같은 annotation 파일들이 포함되어 있다.

hico_verbs_with_synsets.csv: HICO verb와 WordNet synset mapping
hico_objects_with_synsets.csv: HICO object와 WordNet synset mapping
verb_shoe_scores.csv: verb synset pair 간 semantic similarity
object_shoe_scores.csv: object synset pair 간 semantic similarity

즉, 평가할 때마다 LLM을 새로 호출하는 것이 아니라, 미리 계산된 similarity table을 사용한다.

이 방식은 실용적으로 중요하다.

평가 metric이 매번 비싼 LLM inference를 요구하면 재현성과 비용 문제가 생길 수 있다. SHOE는 미리 구축된 score table을 활용하여, 기존 benchmark 평가처럼 비교적 안정적으로 사용할 수 있게 만든다.

README에서는 SHOE similarity table이 HICO-DET의 600개 class를 넘어서, 3,800만 개 이상의 semantically related HOI label 조합으로 확장된다고 설명한다.

즉, 기존 HICO-DET label space 위에서 시작하지만, open-vocabulary 예측을 더 넓게 받아들일 수 있는 평가 공간을 만든 것이다.

⚙️ SHOE Matching은 어떻게 동작하나?

SHOE는 단순히 text similarity만 보는 metric이 아니다.

HOI Detection 평가이기 때문에 localization도 함께 본다.

전체 흐름은 다음과 같다.

1. Bounding box를 먼저 확인한다

예측한 human box와 object box가 정답 box와 충분히 겹쳐야 한다.

README 기준으로 기본 threshold는 min(IoU_human, IoU_object) >= 0.5다.

즉, 사람이 어디 있는지, 객체가 어디 있는지 완전히 틀렸다면 semantic label이 비슷해도 좋은 점수를 받을 수 없다.

2. Verb와 object를 synset으로 매핑한다

예측 label과 정답 label의 verb/object를 WordNet synset으로 연결한다.

예를 들어 bike와 bicycle처럼 표면 단어가 달라도 같은 개념으로 연결될 수 있다.

3. Verb similarity와 object similarity를 가져온다

미리 계산된 SHOE score table에서 verb pair와 object pair의 유사도를 가져온다.

4. 하나의 instance similarity를 만든다

두 값을 평균내서 HOI similarity를 계산한다.

sim(pred, gt) = (verb_sim + object_sim) / 2

5. Soft TP / FP / FN으로 계산한다

기존 평가는 맞으면 TP 1개, 틀리면 FP 1개처럼 딱 잘라 계산한다.

SHOE는 matched prediction이 정답과 0.8만큼 비슷하면,

TP += 0.8
FP += 0.2

처럼 soft하게 반영한다.

반대로 match되지 않은 prediction은 full FP, match되지 않은 ground truth는 full FN이 된다.

이 방식이 SHOE의 핵심이다.

완전히 맞지는 않았지만 의미적으로 가까운 예측은 부분 점수를 받고, 완전히 엉뚱한 예측은 거의 점수를 받지 못한다.

📏 SHOE mAP와 SHOE mF1

SHOE는 두 가지 평가 모드를 제공한다.

SHOE mAP

SHOE mAP는 confidence score가 있는 모델을 위한 평가다.

일반적인 HOI detector처럼 각 prediction에 confidence score가 있으면, score 순서대로 precision-recall curve를 만들고 AP를 계산할 수 있다.

다만 기존 mAP처럼 exact match를 쓰는 대신, SHOE similarity 기반 soft count를 사용한다.

그래서 structured HOI detector 평가에 잘 맞는다.

SHOE mF1

SHOE mF1은 confidence score 없이도 쓸 수 있는 평가다.

VLM이나 MLLM처럼 자연어 예측을 내는 모델은 항상 신뢰도 점수를 깔끔하게 제공하지 않는다.

이런 경우 SHOE mF1이 유용하다.

모든 prediction을 동일하게 보고, semantic similarity 기반으로 precision, recall, F1을 계산한다.

GitHub README에서도 두 모드를 다음처럼 구분한다.

SHOE mAP: confidence-ranked, score가 있는 모델용
SHOE mF1: confidence-free, score가 없는 open-vocabulary prediction에도 사용 가능

즉, SHOE는 기존 HOI detector와 open-ended generative model을 모두 평가하려는 metric이다.

📊 사람 판단과 얼마나 잘 맞나?

SHOE가 주장하는 핵심 실험 결과는 human judgment와의 정렬이다.

논문과 README에 따르면 SHOE는 평균 human rating과 85.73% agreement를 달성했다.

흥미로운 점은 이것이 human inter-annotator agreement인 78.61%보다도 높고, direct LLM scoring이나 embedding-based baseline보다도 좋았다는 점이다.

이 결과가 의미하는 바는 크다.

평가 metric은 결국 사람이 보기에 타당해야 한다.

사람이 보기에는 lean on couch가 sit on couch와 어느 정도 비슷한데, metric이 0점으로 처리한다면 그 metric은 open-vocabulary 평가에 적합하지 않다.

SHOE는 여러 LLM의 판단을 평균하고, verb/object를 분리하고, HOI 구조에 맞게 similarity를 조합함으로써 사람의 의미 판단에 더 가까운 평가를 만들려고 한다.

🔍 GitHub 저장소에서 확인할 수 있는 것

공개된 GitHub 저장소에는 SHOE 평가를 실행하기 위한 코드와 예시 prediction이 포함되어 있다.

주요 구조는 다음과 같다.

annotations/: ground truth, synset mapping, pre-computed SHOE score table
predictions/: Qwen, LAIN 예시 prediction CSV
f1_soft.py: SHOE mF1 evaluator
map_soft.py: SHOE mAP evaluator
shoef1.sh: SHOE mF1 quick-run script
shoemap.sh: SHOE mAP quick-run script

입력 prediction CSV는 대략 다음 정보를 포함해야 한다.

image filename
human bounding box
object bounding box
predicted verb
predicted object
verb synsets
object synsets
confidence score

confidence score는 SHOE mAP에서는 필수이고, SHOE mF1에서는 filtering에 사용할 수 있다.

README에서는 open-vocabulary model이 discrete confidence score를 내지 않는 경우 token probability를 proxy로 사용할 수 있다고 설명한다.

🧭 CrossHOI-Bench와는 뭐가 다른가?

최근 HOI 평가 연구를 보면 CrossHOI-Bench와 SHOE가 비슷한 문제의식을 공유한다.

둘 다 기존 HOI 평가가 너무 rigid하다는 점을 지적한다.

하지만 접근 방식은 다르다.

CrossHOI-Bench는 benchmark format을 바꾼다.

HOI를 복수 정답 객관식 문제로 재구성
curated negative를 제공
VLM과 HOI 전용 모델을 같은 question format으로 비교

반면 SHOE는 evaluation metric을 바꾼다.

기존 prediction과 ground truth를 그대로 두되
exact label match 대신 semantic similarity를 사용
mAP/mF1 계산에 soft score를 반영

즉, CrossHOI-Bench가 “시험지를 새로 만들자”에 가깝다면, SHOE는 “채점 방식을 더 의미적으로 만들자”에 가깝다.

둘은 경쟁 관계라기보다 서로 보완적이다.

Open-vocabulary HOI 시대에는 좋은 benchmark도 필요하고, 좋은 semantic metric도 필요하다.

🚀 이 논문이 중요한 이유

SHOE가 중요한 이유는 평가가 모델 개발 방향을 바꾸기 때문이다.

metric이 exact label match만 보게 되면, 모델은 사람이 보기에는 맞는 표현을 해도 점수를 못 받는다.

그러면 연구자는 결국 benchmark label에 딱 맞는 답을 내도록 모델을 조정하게 된다.

하지만 open-vocabulary vision-language model의 장점은 label set 밖의 표현력이다.

모델이 grasp cup, hold cup, pick up cup처럼 다양한 표현을 할 수 있다면, 평가 metric도 그 차이를 어느 정도 이해해야 한다.

SHOE는 이 문제를 다음처럼 정리한다.

HOI label은 단순 class id가 아니라 의미 구조를 가진다.
verb와 object의 유사도를 따로 봐야 한다.
localization이 맞는 예측에 대해서는 semantic partial credit을 줄 수 있다.
confidence가 있는 detector와 confidence가 없는 generative model 모두 평가해야 한다.

이 관점은 앞으로 더 중요해질 가능성이 크다.

VLM이 발전할수록 모델 출력은 점점 더 자연어에 가까워질 것이고, 평가도 단순 label matching에서 semantic evaluation으로 이동할 수밖에 없기 때문이다.

⚠️ 그래도 조심해서 봐야 할 점

SHOE가 매우 흥미로운 metric이지만, 모든 문제를 해결하는 것은 아니다.

첫째, semantic similarity가 높다고 해서 항상 시각적으로 맞는 것은 아니다.

예를 들어 sit on couch와 lean on couch가 의미적으로 가까워도, 특정 이미지에서는 둘 중 하나만 정확할 수 있다.

따라서 SHOE 점수는 “의미적으로 가까운 정도”를 반영하는 것이지, 모든 시각적 세부 차이를 완벽하게 판정하는 것은 아니다.

둘째, LLM 기반 similarity table 자체에도 bias가 있을 수 있다.

여러 LLM 평균을 쓰고 human judgment와 비교했다는 점은 강점이지만, 언어적 유사도와 실제 시각적 affordance가 언제나 일치하지는 않는다.

셋째, WordNet synset mapping이 필요한 만큼, 완전히 자유로운 자연어 표현을 다루려면 preprocessing 품질도 중요하다.

즉, SHOE는 exact-match mAP를 대체할 수 있는 강력한 후보이지만, 특히 open-vocabulary 평가에서는 기존 metric과 함께 보면서 해석하는 것이 좋다.

🧠 나의 코멘트!

SHOE는 “평가 metric도 이제 언어를 이해해야 한다”는 흐름을 잘 보여주는 연구라고 느껴진다.

기존 computer vision 평가에서는 label이 맞냐 틀리냐가 중요했다. cat이면 cat, dog이면 dog처럼 class가 분리되어 있었기 때문이다.

하지만 HOI는 훨씬 더 언어적이다.

hold, grasp, carry, pick up은 서로 겹치는 의미가 있고, sit on, lean on, rest on도 이미지에 따라 경계가 흐릴 수 있다.

특히 VLM이 등장한 이후에는 모델이 사람이 말하듯 답을 내기 때문에, 평가도 사람이 이해하듯 어느 정도의 의미적 유연성을 가져야 한다.

그런 점에서 SHOE는 open-vocabulary HOI 연구에 꽤 실용적인 도구가 될 수 있다.

나에게 가장 인상적인 부분은 SHOE가 단순히 “LLM에게 점수 매겨달라”고 하지 않는다는 점이다.

대신 HOI를 verb와 object로 나누고, synset 기반 table을 만들고, detection matching과 soft TP/FP/FN을 결합한다.

즉, 기존 detection metric의 구조를 버리지 않으면서, semantic similarity를 자연스럽게 끼워 넣는다.

앞으로 HOI뿐 아니라 scene graph generation, visual relationship detection, embodied AI action recognition 같은 분야에서도 비슷한 semantic evaluation이 더 중요해질 것 같다.

결국 open-vocabulary 모델을 제대로 평가하려면, 정답 문자열을 맞혔는지가 아니라 사람이 보기에 같은 의미의 시각적 관계를 이해했는지를 물어야 하기 때문이다.

SHOE는 그 방향으로 가는 꽤 깔끔한 한 걸음이다.

AI, Research

This post is licensed under CC BY 4.0 by the author.