๐ง OSrCIR: Reason-before-Retrieve for Composed Image Retrieval
๐ง OSrCIR: Reason-before-Retrieve for Composed Image Retrieval
๐ง (ํ๊ตญ์ด) OSrCIR: Reason-before-Retrieve ๋ธ๋ผ๋ธ๋ผ๋ธ๋ผ
- ์ ๋ชฉ: Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval
- ํํ: CVPR 2025 (Highlight paperYuanmin Tang et al.)
- ์ฝ๋: osrcir (GitHub)
- ํต์ฌ ํค์๋:
Composed Image Retrieval
,Chain-of-Thought
,One-Stage
,MLLM
,Zero-Shot
๐ 3์ค ์์ฝ
- ๊ธฐ์กด์ ์ด๋ฏธ์ง+ํ ์คํธ ์กฐํฉ ๊ฒ์(CIR) ์ ๋๋ถ๋ถ 2-Stage ๊ตฌ์กฐ (์ด๋ฏธ์ง ์บก์ โ ํ ์คํธ ์ถ๋ก ) ์ฌ์ฉ
- OSrCIR์ MLLM์ด Reference ์ด๋ฏธ์ง๋ฅผ ์ง์ reasoningํ์ฌ, ํ ์คํธ ์์ด Target ์ด๋ฏธ์ง์ ํน์ฑ ์์ฒด๋ฅผ ์ถ๋ก
- ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ํ๋/์๋ ํฅ์, ์ฌ์ ํ์ต ์์ด zero-shot inference๋ง์ผ๋ก ์๋ ๊ฐ๋ฅ
๐ ๊ธฐ์กด CIR ๊ตฌ์กฐ์ ํ๊ณ
๋ฐฉ์ | ๊ตฌ์กฐ | ๋ฌธ์ ์ |
---|---|---|
2-Stage CIR | (1) ์ด๋ฏธ์ง โ ์บก์ ์์ฑ (2) ํ ์คํธ โ ์ถ๋ก โ ๊ฒ์ | ์ด๋ฏธ์ง ์ ๋ณด ์์ค, reasoning ์ค๋ฅ ๋ฐ์ |
Text-Only Reasoning | Reference ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ๊ฐ์ ์ ์ผ๋ก ์ ๋ฌ | ์๊ฐ์ ์์ฑ ๋ฐ์ ์ด๋ ค์ |
MLLM ํ์ฉ ๋ฐฉ์ | ์ง๋ฌธ ์๋ต์ผ๋ก ๊ฐ์ reasoning | ์๊ฐ ์์, ์ผ๊ด์ฑ ๋ถ์กฑ |
โ ์ฆ, ํ ์คํธ๋ฅผ ์ค๊ฐ ๋งค๊ฐ๋ก ์ผ๋ ๋ฐฉ์ ์์ฒด๊ฐ ๋ณธ์ง์ ์ธ ์ ๋ณด ์์ค์ ์ ๋ฐํจ.
##
๐ Comparison of CIRCO and CIRR Test Data
๐งพ Overview
ํญ๋ชฉ | CIRCO (Composable Image Retrieval) | CIRR (Composable Image Retrieval on Real life) |
---|---|---|
๋ชฉ์ | ๊ตฌ์ฑ ์์ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ๊ฒ์ (์กฐํฉ์ ) | ์ผ์ ์ฅ๋ฉด ๊ธฐ๋ฐ์ ๊ตฌ์ฑ ์ด๋ฏธ์ง ๊ฒ์ |
๋ฐ์ดํฐ ์ ํ | Synthetic-style + Multi-object | Real-life ์ฌ์ง (๋์, ์ผ์ ๋ฑ) |
์ฃผ์ Task | Compositional Retrieval | Reference + Text-based Target Retrieval |
์ํ ๊ตฌ์ฑ | Query Image + Target Attribute | Reference Image + Caption |
์ ๋ต ์ | Top-1 ๋๋ Top-k (๋จ์ผ ์ ๋ต) | Top-1 ๋๋ Top-k (๋จ์ผ ์ ๋ต) |
Negative ๊ตฌ์กฐ | Disentangled Hard Negatives | Semantically Similar Distractors |
๋์ด๋ ํน์ง | Attribute ์์ค ์กฐํฉ์ ๋ค์์ฑ ๋์ | ์ฅ๋ฉด ์ ์ฌ๋ ๊ธฐ๋ฐ Distractor ํฌํจ |
์ฃผ์ ์ฌ์ฉ ๋ชฉ์ | ๋ชจ๋ธ์ ์กฐํฉ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ | ์ค์ ์ํฉ์์์ Text-Image ์กฐํฉ ๊ฒ์ ํ๊ฐ |
๐ CIRCO Dataset
- ์ถ์ฒ: CIRCO: Compositional Image Retrieval with Complex Object Descriptions
- ๊ตฌ์ฑ: ๋ค์ํ ๋ฌผ์ฒด ์์ฑ๊ณผ ๋ฐฐ๊ฒฝ ์กฐํฉ์ผ๋ก ์์ฑ๋ ์ฟผ๋ฆฌ-ํ๊น ์
- ์
๋ ฅ ์ฟผ๋ฆฌ ์์:
- ์ด๋ฏธ์ง: โ๊ฐ๊ฐ ๋๋ฌด ์์ ์์โ
- ์์ฑ ๋ณ๊ฒฝ: โ๋๋ฌด โ ๋ฒค์นโ
- ํน์ง: ์๊ฐ ๊ฐ์ฒด ๊ตฌ์ฑ ์์ ๋จ์์ ์กฐํฉ ๋ฅ๋ ฅ ํ๊ฐ ๊ฐ๋ฅ
๐ CIRR Dataset
- ์ถ์ฒ: Compositional Image Retrieval on Real-life images
- ๊ตฌ์ฑ: ์ค์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ, ๋ฌธ์ฅ ์ค๋ช ๊ณผ ํจ๊ป ์ฐธ์กฐ ์ด๋ฏธ์ง ์ ๊ณต
- ์
๋ ฅ ์ฟผ๋ฆฌ ์์:
- ์ฐธ์กฐ ์ด๋ฏธ์ง + ํ ์คํธ ์ค๋ช : โ๊ฐ์ ์ฌ์๊ฐ ์๋๋ฐ ์ท ์์ด ๋ค๋ฅด๊ณ ๋ค์ ์๋ ์๋์ฐจ๋ ์์โ
- ํน์ง: ์ค์ ์ฅ๋ฉด์์์ ์๋ฏธ ๊ธฐ๋ฐ ์กฐํฉ ๊ฒ์ ๋ฅ๋ ฅ ํ๊ฐ
๐ง ์์ฝ ์ ๋ฆฌ
- CIRCO: ๊ตฌ์กฐ์ , ์กฐํฉ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ ์คํธํ๋ ๋ฐ ์ค์ .
- CIRR: ํ์ค ๊ธฐ๋ฐ์ ์ง๊ด์ ์ธ ํ ์คํธ-์ด๋ฏธ์ง ๊ฒ์ ํ ์คํธ์ ์ค์ .
๋ ๋ฐ์ดํฐ์ ๋ชจ๋ V+L ๋ชจ๋ธ์ โ์กฐํฉ์ ์ดํด์ ๊ฒ์ ๋ฅ๋ ฅโ์ ํ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋์ง๋ง, CIRCO๋ ๋ ๋ณต์กํ ์กฐํฉ ํจํด, CIRR์ ์ค์ ์ฌ์ง๊ณผ ์ค๋ช ๊ธฐ๋ฐ์ ์ง๊ด์ ํ๊ฐ์ ์ด์ ์ ๋ก๋๋ค.
๐ฑ OSrCIR์ ํต์ฌ ์์ด๋์ด
โReason first. Then retrieve.โ
- ๊ธฐ์กด CIR์ โRetrieve-and-Reasonโ ๋ฐฉ์
- OSrCIR์ ๋ฐ๋๋ก โReason-before-Retrieveโ
- MLLM์ ์ฌ์ฉํด ์ด๋ฏธ์ง์์ ์ง์ target ํน์ฑ ์ถ๋ก
- ์ด reasoning ๊ฒฐ๊ณผ(ํ ์คํธ)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Target ์ด๋ฏธ์ง ๊ฒ์ ์ํ
๐ง OSrCIR ์ํคํ ์ฒ ์์ฝ
- ์ ๋ ฅ: (Reference Image, Text Query)
- Stage 1: MLLM์ ํ์ฉํด Reference ์ด๋ฏธ์ง์ ๋ํด chain-of-thought ์คํ์ผ ์ถ๋ก ์ํ
- Stage 2: ์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ํ ์คํธ ์ฟผ๋ฆฌ๋ก ์ ์
- Stage 3: ๊ฒ์ ํ๋ณด ์ด๋ฏธ์ง๋ค๊ณผ CLIP ๊ธฐ๋ฐ ํ ์คํธ-์ด๋ฏธ์ง ๋งค์นญ ์ํ (zero-shot)
โ ์ ์ฒด ๊ณผ์ ์ด end-to-end๋ก ๋จ์ผ ๋จ๊ณ(one-stage) ์์ ์ฒ๋ฆฌ๋จ
๐งช ์คํ ๊ฒฐ๊ณผ ์์ฝ
์ฃผ์ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด 2-Stage ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ ํ๋ + ํจ์จ ๋ชจ๋ ์ฐ์ํ ์ฑ๊ณผ ๋ฌ์ฑ!
Dataset | Recall@1 (๊ธฐ์กด SOTA) | OSrCIR | ํฅ์ํญ |
---|---|---|---|
CIRR | 52.1 (FashionIQ-CLIP) | 57.4 | +5.3 |
CIRCO | 33.8 | 37.9 | +4.1 |
FashionIQ | 48.7 | 54.2 | +5.5 |
- Zero-shot ์ค์ ์์ ์คํ๋จ (ํ์ต ์์ด inference๋ง์ผ๋ก)
- Ablation ๊ฒฐ๊ณผ, reasoning์ ์๋ตํ๋ฉด ์ฑ๋ฅ ๊ธ๋ฝ
โ ๊ฒฐ๋ก ๋ฐ ์์
- OSrCIR์ MLLM์ ๊ณ ์ฐจ reasoning ๋ฅ๋ ฅ์ CIR์ ์ต์ ํ๋ ๋ฐฉ์์ผ๋ก ๋์ด๋ธ ๋ํ์ ์ฌ๋ก
- ๋ณ๋ ํ์ต ์์ด inference๋ง์ผ๋ก ๋์ โ Training-free + Generalizable
- Chain-of-Thought reasoning์ด ๋จ์ผ ์คํ ์ด์ง retrieval์ ์ง์ ์ ์ฉ๋ ์ต์ด ์ฌ๋ก ์ค ํ๋
- ํฅํ VLM ๊ธฐ๋ฐ ํํฐ๋ง, ๊ฒ์, AGI planning ๋ฑ์์์ ์์ฉ ๊ฐ๋ฅ์ฑ ๋งค์ฐ ํผ
โRetrieval is not just about matching. Itโs about reasoning what to match.โ
This post is licensed under CC BY 4.0 by the author.