🤝 HOICLIP으로 Vision-Language Model 기반 HOI Detection 하기! (CVPR 2023)

Posted May 1, 2026

By DrFirst

26 min read

🤝 HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models 논문 읽기!

제목: HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models
저자: Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He
소속: ShanghaiTech University, ByteDance Inc., Shanghai Engineering Research Center of Intelligent Vision and Imaging
발표: CVPR 2023
한 줄 요약: CLIP 같은 Vision-Language Model이 가진 풍부한 시각-언어 지식을 1-stage HOI detector에 효율적으로 전이해서, 사람-객체-상호작용 관계를 더 잘 예측하도록 만든다!! 🚀

🏛️ 어디에서 발표된 연구인가?

HOICLIP은 CVPR 2023에서 발표된 HOI Detection 연구다.

CVPR은 Computer Vision and Pattern Recognition의 약자로, 컴퓨터 비전 분야에서 가장 영향력이 큰 학회 중 하나다.
이 논문은 특히 Human-Object Interaction Detection 문제에 Vision-Language Model, 그중에서도 CLIP의 지식을 어떻게 효율적으로 가져올 수 있는지를 다룬다.

중요한 점은 HOICLIP이 단순히 CLIP을 가져다 붙인 연구가 아니라는 것이다.
HOI Detection의 구조에 맞게 CLIP의 텍스트-이미지 정렬 지식을 전이하고, 이를 1-stage detector 안에서 효율적으로 활용하려는 방향의 연구다.

🚀 연구 핵심 요약

한 줄 요약: “HOI Detection에서 부족한 interaction annotation 문제를 CLIP의 vision-language knowledge로 보완하고, 이를 1-stage detector에 효율적으로 전이하는 방법을 제안한다”

HOICLIP은 Human-Object Interaction Detection, 즉 HOI Detection 문제를 다룬다.

HOI Detection은 이미지 안에서 단순히 사람과 물체를 찾는 것을 넘어서,

사람이 어떤 물체와 상호작용하는지
그 상호작용이 어떤 verb/action인지
최종적으로 <human, verb, object> triplet이 무엇인지

를 예측하는 문제다.

예를 들면,

<person, ride, bicycle>
<person, hold, cup>
<person, eat, sandwich>
<person, sit on, chair>
<person, carry, backpack>

같은 관계를 찾아야 한다.

이 논문은 여기서 핵심적으로 묻는다.

“CLIP처럼 image-text alignment를 잘 배운 Vision-Language Model의 지식을 HOI Detection에 잘 가져오면, interaction을 더 잘 찾을 수 있지 않을까?”

그리고 그 답으로 HOICLIP을 제안한다.

🖼️ HOICLIP 전체 구조 한눈에 보기

아래 그림은 HOICLIP의 핵심 흐름을 이해하기 쉽도록 이미지로 정리한 것이다.

핵심은 다음과 같다.

이미지를 입력받아 visual backbone에서 feature를 추출한다.
1-stage HOI detector가 human-object pair와 interaction을 end-to-end로 예측한다.
HOI category는 자연어 prompt로 변환된다.
CLIP text encoder를 통해 HOI text embedding을 얻는다.
detector의 visual interaction feature와 CLIP text knowledge를 정렬하거나 전이한다.
최종적으로 <human, verb, object> triplet을 예측한다.

즉, HOICLIP은 HOI Detection을 단순한 visual classification으로만 보지 않고,
vision-language semantic alignment 문제로 함께 바라본다.

🔍 HOI Detection이 어려운 이유!

1. 사람과 객체를 찾는 것만으로는 부족하다

Object Detection은 보통 이미지 안에서 person, bicycle, cup, chair 같은 객체를 찾는다.

하지만 HOI Detection은 한 단계 더 어렵다.

예를 들어 이미지에 사람과 자전거가 있다고 해서 항상 ride bicycle은 아니다.

자전거를 타고 있을 수도 있고
자전거를 끌고 있을 수도 있고
자전거 옆에 서 있을 수도 있고
자전거를 고치고 있을 수도 있다

즉, 같은 human-object pair라도 interaction verb가 달라질 수 있다.

그래서 HOI Detection은 단순 object detection보다 더 fine-grained한 관계 이해가 필요하다.

2. HOI category는 조합적으로 많다

HOI는 보통 verb와 object의 조합으로 구성된다.

예를 들어,

hold cup
hold bottle
hold phone
ride bicycle
ride horse
sit on chair
sit on bench

처럼 verb와 object가 조합되면 category 수가 빠르게 늘어난다.

문제는 모든 조합에 대해 충분한 학습 데이터를 모으기 어렵다는 것이다.

특히 rare interaction은 데이터가 매우 적다.

이 때문에 HOI Detection은 long-tail 문제가 심하다.

3. 언어적 의미를 활용하는 것이 중요하다

ride bicycle과 ride horse는 object는 다르지만 action semantic은 비슷하다.

또 hold cup과 hold bottle도 상호작용 패턴이 비슷하다.

이런 관계는 이미지 label만으로 배우기 어렵지만, 언어 모델이나 vision-language model은 어느 정도 알고 있다.

그래서 HOICLIP은 CLIP이 학습한 vision-language representation을 HOI Detection에 활용한다.

🔍 기존 방법의 한계!

기존 HOI Detection 방법들은 보통 다음 정보를 활용한다.

human bounding box
object bounding box
human-object pair feature
spatial relation
visual appearance
HOI class label

하지만 이런 방식은 주어진 HOI dataset의 annotation에 강하게 의존한다.

문제는 HOI dataset이 크지 않고, interaction category가 long-tail이라는 점이다.

그래서 자주 등장하는 interaction은 잘 맞추지만, 드문 interaction이나 새로운 조합에는 약할 수 있다.

🧭 1-stage HOI Detection 연구라는 점이 왜 중요한가?

HOICLIP은 1-stage HOI Detection 흐름에 속하는 연구로 이해할 수 있다.

HOI Detection 방법은 크게 보면 2-stage 방식과 1-stage 방식으로 나눌 수 있다.

1. 2-stage HOI Detection

2-stage 방식은 보통 다음처럼 동작한다.

먼저 object detector로 사람과 객체의 bounding box를 찾는다.
검출된 human box와 object box를 조합해서 human-object pair 후보를 만든다.
각 pair에 대해 어떤 interaction verb가 있는지 분류한다.
최종적으로 <human, verb, object> triplet을 만든다.

즉, 2-stage 방식은 보통 object detection 단계와 interaction classification 단계가 분리되어 있다.

장점은 다음과 같다.

기존 object detector를 활용하기 쉽다.
human box와 object box가 명확하게 주어진 상태에서 interaction을 분석할 수 있다.
구조가 직관적이다.

하지만 단점도 있다.

detector의 box 품질에 크게 의존한다.
가능한 human-object pair 조합이 많아지면 계산량이 커진다.
detection과 interaction reasoning이 분리되어 end-to-end 최적화가 어려울 수 있다.
앞 단계의 오류가 뒤 단계로 전파된다.

예를 들어 첫 번째 detector가 컵을 못 찾으면, 뒤에서 hold cup interaction을 맞추기 어렵다.

2. 1-stage HOI Detection

1-stage 방식은 human/object detection과 interaction prediction을 더 통합적으로 처리하려는 방향이다.

일반적으로 다음과 같은 특징을 가진다.

이미지 feature에서 바로 interaction query 또는 human-object relation을 예측한다.
human box, object box, interaction verb를 end-to-end로 함께 학습한다.
별도의 pair enumeration이나 복잡한 후처리를 줄이려 한다.
transformer decoder나 query 기반 구조와 잘 결합된다.

즉, 1-stage 방식은 단순히 object를 먼저 찾고 pair를 조합하는 것이 아니라,
이미지 안의 interaction 자체를 하나의 detection target처럼 직접 예측하려는 방향에 가깝다.

장점은 다음과 같다.

end-to-end 학습에 유리하다.
pair 조합 비용을 줄일 수 있다.
visual context와 interaction reasoning을 더 긴밀하게 결합할 수 있다.
모델 구조가 깔끔해질 수 있다.

물론 어려운 점도 있다.

interaction query가 정확한 human-object relation을 학습해야 한다.
작은 데이터셋에서는 충분한 semantic prior가 없으면 rare interaction을 배우기 어렵다.
object detection과 interaction classification을 동시에 잘해야 한다.

3. HOICLIP에서 1-stage 구조와 CLIP 지식 전이가 만나는 지점

HOICLIP이 흥미로운 이유는 바로 이 지점이다.

1-stage HOI detector는 interaction을 end-to-end로 예측하려고 하지만,
HOI dataset만으로는 모든 interaction semantic을 충분히 배우기 어렵다.

그래서 HOICLIP은 CLIP의 vision-language knowledge를 가져온다.

즉,

1-stage detector는 이미지에서 human-object interaction을 직접 예측하고
CLIP은 HOI category의 language semantic과 visual-language alignment prior를 제공한다

이 두 가지를 결합하는 방식이다.

이렇게 하면 detector가 단순히 학습 데이터의 label id만 외우는 것이 아니라,
a person riding a bicycle, a person holding a cup 같은 자연어 의미와 연결된 interaction representation을 학습할 수 있다.

🤖 왜 CLIP을 쓰는가?

CLIP은 image-text pair를 대규모로 학습한 Vision-Language Model이다.

CLIP의 핵심 장점은 다음과 같다.

이미지와 텍스트를 같은 embedding space에 정렬한다
자연어 prompt를 통해 category semantic을 표현할 수 있다
대규모 데이터로 학습되어 풍부한 visual concept을 알고 있다
zero-shot classification에 강하다
seen category뿐 아니라 unseen concept에도 어느 정도 일반화할 수 있다

HOI Detection 입장에서는 이게 매우 매력적이다.

왜냐하면 HOI category 자체가 자연어 문장으로 표현될 수 있기 때문이다.

예를 들어,

a person riding a bicycle
a person holding a cup
a person eating a sandwich
a person sitting on a chair

처럼 interaction을 language prompt로 만들 수 있다.

즉, HOI class를 단순한 index가 아니라 언어 의미를 가진 텍스트 표현으로 바꿀 수 있다.

🔍 본 연구의 방법론!!!

3.1 전체 아이디어

HOICLIP의 핵심 흐름은 다음과 같다.

1-stage HOI Detection backbone을 통해 interaction 후보를 end-to-end로 만든다
- 이미지에서 사람과 객체, 그리고 interaction을 함께 예측하는 방향으로 학습한다.
- human-object pair를 단순히 후처리로만 조합하는 것이 아니라, interaction detection 자체를 모델 내부에서 직접 다룬다.
각 interaction 후보에 대해 visual interaction feature를 추출한다
- human appearance
- object appearance
- spatial relation
- interaction context
HOI category를 text prompt로 표현한다
- 예: a photo of a person riding a bicycle
- 예: a photo of a person holding a cup
CLIP의 vision-language knowledge를 활용한다
- text encoder로 HOI label의 semantic embedding을 얻고,
- visual feature와 text feature가 잘 맞도록 학습한다.
HOI classifier에 knowledge transfer를 수행한다
- 단순히 dataset label만 보고 학습하는 것이 아니라,
- CLIP이 가진 language-aware representation을 detector에 주입한다.

정리하면, HOICLIP은 HOI Detection을 단순 visual classification 문제가 아니라
vision-language matching 문제로도 바라본다.

3.2 HOI를 자연어 prompt로 바꾸기

HOI category는 보통 (verb, object) 조합이다.

예를 들어 HICO-DET 같은 dataset에서는 다음과 같은 class가 있을 수 있다.

ride bicycle
hold cup
eat apple
sit on chair

HOICLIP은 이런 category를 CLIP이 이해할 수 있는 문장 형태로 바꾼다.

예를 들면,

a photo of a person riding a bicycle
a photo of a person holding a cup
a photo of a person eating an apple
a photo of a person sitting on a chair

이렇게 바꾸면 HOI class가 단순 label id가 아니라 semantic text embedding이 된다.

이게 중요한 이유는 다음과 같다.

ride bicycle과 ride horse의 semantic similarity를 반영할 수 있음
hold cup과 hold bottle의 유사성을 활용할 수 있음
rare class도 language prior를 통해 보완할 수 있음
unseen 또는 적은 sample의 interaction에 더 잘 일반화할 가능성이 생김

3.3 Vision-Language Knowledge Transfer

HOICLIP의 핵심은 CLIP의 지식을 HOI detector로 전이하는 것이다.

CLIP은 이미 대규모 image-text pair를 통해 다음을 배웠다.

object concept
action concept
scene context
visual-language alignment
compositional semantic

하지만 CLIP을 그대로 HOI Detection에 쓰기는 어렵다.

왜냐하면 HOI Detection은 이미지 전체 classification이 아니라,

사람 box
객체 box
human-object pair 또는 interaction query
interaction verb
triplet prediction

을 다뤄야 하기 때문이다.

즉, CLIP의 global image-text matching 능력을
HOI Detection의 pair-level interaction understanding으로 옮겨야 한다.

HOICLIP은 이 문제를 knowledge transfer 관점으로 해결한다.

3.4 Efficient Knowledge Transfer가 중요한 이유

Vision-Language Model을 HOI Detection에 활용하는 가장 단순한 방법은
모든 human-object pair마다 CLIP을 직접 돌리거나, crop image를 계속 CLIP에 넣는 것이다.

하지만 이렇게 하면 계산량이 매우 커진다.

이미지 한 장에 사람과 객체가 여러 개 있으면 가능한 pair 수가 많아진다.

예를 들어,

person 5명
object 10개

만 있어도 human-object pair 후보는 50개가 된다.

각 pair마다 CLIP image encoder를 반복적으로 사용하면 매우 비효율적이다.

그래서 이 논문의 제목에 Efficient Knowledge Transfer가 들어간다.

핵심은 CLIP의 지식을 무겁게 직접 사용하는 것이 아니라,
HOI detector가 사용할 수 있는 형태로 효율적으로 옮기는 것이다.

3.5 Text Knowledge를 Classifier에 활용하기

HOICLIP에서 중요한 아이디어 중 하나는 HOI category의 text embedding을 classifier에 활용하는 것이다.

기존 classifier는 보통 각 HOI class마다 학습 가능한 weight를 둔다.

하지만 HOI class가 많고 long-tail이면, rare class의 classifier weight는 충분히 잘 학습되지 않는다.

반면 CLIP text encoder로 만든 HOI text embedding은 자연어 semantic을 포함한다.

그래서 HOI classifier를 만들 때,

random initialization 대신 text embedding을 활용하거나
visual feature와 text feature의 alignment를 학습하거나
HOI class 간 semantic relation을 반영하는 방식

으로 지식을 전이할 수 있다.

이렇게 하면 단순 label supervision보다 풍부한 semantic prior를 사용할 수 있다.

3.6 Visual Feature와 Text Feature 정렬

HOICLIP의 또 다른 핵심은 visual interaction feature와 text feature를 같은 semantic space에서 맞추는 것이다.

예를 들어 이미지 안에 사람이 자전거를 타고 있다면,
해당 human-object pair의 visual feature는 다음 text feature와 가까워져야 한다.

a person riding a bicycle

반대로 다음과는 멀어져야 한다.

a person holding a bicycle
a person eating a bicycle
a person sitting on a cup

즉, 모델은 단순히 bounding box를 찾는 것이 아니라
interaction semantic에 맞는 visual-language matching을 학습한다.

이런 구조는 특히 다음 상황에서 도움이 된다.

visual cue가 애매한 interaction
training sample이 적은 interaction
비슷한 object를 공유하는 여러 action
비슷한 action을 공유하는 여러 object

🧩 HOICLIP의 핵심 Contribution 정리

구분	내용
발표	CVPR 2023
문제 설정	Human-Object Interaction Detection
Detector 관점	1-stage HOI Detection
핵심 목표	CLIP의 vision-language knowledge를 HOI detector에 효율적으로 전이
핵심 아이디어	HOI category를 text prompt로 표현하고 visual interaction feature와 정렬
장점	Long-tail HOI category와 rare interaction에 대한 일반화 향상
효율성	CLIP을 매 pair마다 무겁게 사용하는 대신 detector에 knowledge를 전이
의의	HOI Detection을 vision-language representation과 연결한 중요한 연구

🧪 실험 결과 해석 포인트

HOICLIP의 실험에서 봐야 할 핵심은 단순히 전체 mAP가 올랐는지뿐만 아니라,
CLIP knowledge transfer가 어떤 class에서 효과적인지다.

특히 중요한 포인트는 다음과 같다.

Rare HOI class에서 성능 개선이 있는가?
- CLIP의 language prior는 데이터가 적은 class에서 특히 도움이 될 수 있다.
Seen interaction뿐 아니라 compositional generalization에도 유리한가?
- ride bicycle을 잘 배운 모델이 ride horse에도 semantic 도움을 받을 수 있는지가 중요하다.
Text prompt가 HOI label의 의미를 잘 담는가?
- prompt 설계가 CLIP 기반 방법에서는 성능에 영향을 줄 수 있다.
효율적인가?
- CLIP을 직접 반복 호출하는 방식보다 detector에 지식을 전이하는 방식이 실용적이다.
1-stage detector 안에서 CLIP knowledge가 안정적으로 작동하는가?
- HOICLIP의 핵심은 단순히 CLIP을 후처리처럼 붙이는 것이 아니라, 1-stage HOI detection 구조 안에서 semantic knowledge를 활용하는 것이다.

🔥 왜 이 논문이 중요한가?

HOICLIP은 HOI Detection에서 Vision-Language Model을 활용하는 흐름을 잘 보여주는 연구다.

기존 HOI Detection은 주로 visual feature와 supervised label에 의존했다.

하지만 HOI는 본질적으로 언어적인 구조를 가진다.

사람
행동
객체

이 세 요소는 자연어 문장으로 쉽게 표현된다.

예를 들어 <person, cut, cake>는
a person cutting a cake라는 문장으로 바꿀 수 있다.

이런 점에서 HOI Detection은 CLIP 같은 Vision-Language Model과 매우 잘 맞는다.

HOICLIP은 이 연결점을 활용해서,
HOI detector가 더 풍부한 semantic knowledge를 사용할 수 있도록 만든다.

특히 1-stage HOI detector는 interaction을 end-to-end로 예측해야 하기 때문에,
데이터셋 label만으로는 부족한 semantic prior를 CLIP으로 보완하는 전략이 더욱 의미 있다.

🧠 개인적인 이해 포인트

이 논문에서 가장 흥미로운 부분은
HOI class를 단순한 classification label이 아니라 문장 의미로 본다는 점이다.

보통 딥러닝 classification에서는 class가 그냥 index다.

예를 들어,

class 0: ride bicycle
class 1: hold cup
class 2: eat apple

이런 식이다.

하지만 CLIP을 사용하면 class가 문장이 된다.

a person riding a bicycle
a person holding a cup
a person eating an apple

이렇게 되면 class 사이의 관계도 embedding space에서 표현된다.

즉,

holding a cup
holding a bottle

은 가까워질 수 있고,

riding a bicycle
eating an apple

은 멀어질 수 있다.

이런 semantic structure가 HOI Detection의 long-tail 문제를 완화하는 데 도움을 준다.

또한 1-stage detector의 관점에서 보면,
모델이 이미지에서 interaction을 직접 찾는 과정에 CLIP의 언어적 prior가 들어간다는 점이 중요하다.

단순히 “box를 찾고 나중에 verb를 붙이는 것”이 아니라,
처음부터 interaction representation 자체가 언어 의미와 가까워지도록 유도하는 것이다.

✅ 결론

HOICLIP은 CVPR 2023에서 발표된 HOI Detection 연구다.
HOICLIP은 1-stage HOI detector에 Vision-Language Knowledge를 효율적으로 전이하는 방법을 제안한다.
CLIP이 가진 image-text alignment 능력을 human-object interaction detection에 활용한다.
HOI category를 자연어 prompt로 표현해서 text semantic을 classifier와 feature learning에 반영한다.
1-stage 방식은 human/object detection과 interaction prediction을 더 통합적으로 end-to-end 처리하려는 방향이다.
2-stage 방식은 object detection 후 human-object pair를 조합하고 interaction을 분류하는 방식이라 구조는 직관적이지만, pair 조합 비용과 error propagation 문제가 있다.
HOICLIP은 단순 visual label supervision보다 풍부한 semantic prior를 사용할 수 있다.
특히 rare interaction, long-tail HOI category, compositional generalization에서 도움이 될 수 있다.
핵심은 CLIP을 무겁게 직접 반복 사용하는 것이 아니라, HOI detector에 효율적으로 지식을 전이하는 것이다!!

AI, Research

This post is licensed under CC BY 4.0 by the author.

🤝 HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models 논문 읽기!

🏛️ 어디에서 발표된 연구인가?

🚀 연구 핵심 요약

🖼️ HOICLIP 전체 구조 한눈에 보기

🔍 HOI Detection이 어려운 이유!

1. 사람과 객체를 찾는 것만으로는 부족하다

2. HOI category는 조합적으로 많다

3. 언어적 의미를 활용하는 것이 중요하다

🔍 기존 방법의 한계!

🧭 1-stage HOI Detection 연구라는 점이 왜 중요한가?

1. 2-stage HOI Detection

2. 1-stage HOI Detection

3. HOICLIP에서 1-stage 구조와 CLIP 지식 전이가 만나는 지점

🤖 왜 CLIP을 쓰는가?

🔍 본 연구의 방법론!!!

3.1 전체 아이디어

3.2 HOI를 자연어 prompt로 바꾸기

3.3 Vision-Language Knowledge Transfer

3.4 Efficient Knowledge Transfer가 중요한 이유

3.5 Text Knowledge를 Classifier에 활용하기

3.6 Visual Feature와 Text Feature 정렬

🧩 HOICLIP의 핵심 Contribution 정리

🧪 실험 결과 해석 포인트

🔥 왜 이 논문이 중요한가?

🧠 개인적인 이해 포인트

✅ 결론

Trending Tags