๐ง CIRCO - Zero-Shot Composed Image Retrieval with Textual Inversion (ICCV 2023)
๐ง (ํ๊ตญ์ด) Textual Inversion์ ํ์ฉํ ์ ๋ก์ท ์กฐํฉ ์ด๋ฏธ์ง ๊ฒ์!! CIRCO
๊ธฐ์กด CIR์ฐ๊ตฌ์์ ZS-CIR ๋ชจ๋ธ์ ๊ณต๊ฐํ๊ณ , CIRCO ๋ฐ์ดํฐ์ ๋ ๊ณต๊ฐ!!
- ์ ๋ชฉ: Zero-Shot Composed Image Retrieval with Textual Inversion
- ํํ: ICCV 2023 (Zhang et al.)
- ์ฝ๋: CIRCO (GitHub)
- ํต์ฌ ํค์๋:
Composed Image Retrieval
,CIRCO
,Textual Inversion
,Zero-Shot
,ICCV 2023
,ZS-CIR
,SEARLE
- ์ถ๊ฐ!! : ์ฉ์ด๊ฐ ํ๊ฐ๋ฆฌ๋๋ฐ
ZS-CIR
,SEARLE
๊ฐ ๋ชจ๋ ์ด ๋ ผ๋ฌธ์์ ๊ณต๊ฐํ ๋ชจ๋ธ์ ์ง์นญํฉ๋๋ค!! ZS-CIR
๋ Zero shot Composed Image Retrieval์ ์ฝ์ด,SEARLE
์ zero-Shot composEd imAge Retrieval with textuaL invErsion ์ ๋๋ค!!
๐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
CIRR(ICCV 2021)์ ์กฐํฉ ์ด๋ฏธ์ง ๊ฒ์(Composed Image Retrieval, CIR)์ ์ ์ํ์ง๋ง, ํ์ต ๊ธฐ๋ฐ ๋ฐฉ์๊ณผ ๋จ์ผ ์ ๋ต ๋ผ๋ฒจ๋ง์ ์์กดํ์ต๋๋ค.
ํ์ง๋ง ํ์ค ์์ฉ์์๋ ๋ค์๊ณผ ๊ฐ์ ์๊ตฌ๊ฐ ์์ต๋๋ค:
โ์๋ก์ด ๋๋ฉ์ธ์์๋ ํ์ต ์์ด(Zero-Shot)
์ฐธ์กฐ ์ด๋ฏธ์ง + ํ ์คํธ ์์ ์ผ๋ก ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ์ฐพ๊ณ ,
๋์์ ๋ณต์์ ์ ๋ต์ ํ์ฉํด์ผ ํ๋ค!โ
์ด๋ฅผ ์ํด ICCV 2023์์ ๋ฐํ๋ ์ด๋ฒ ๋
ผ๋ฌธ์
ZS-CIR ๋ชจ๋ธ ๊ณต๊ฐ!! โ Textual Inversion์ ํ์ฉํ ์ ๋ก์ท CIR ํ๋ ์์ํฌ ๊ณต๊ฐ
๋ํ CIRCO๋ผ๋ ๋ฐ์ดํฐ ์
์ผ๋ก, ๋ ํ์ค์ ์ด๊ณ ์ ๊ตํ ๋ฐ์ดํฐ์
์ ์ ์ํ์ต๋๋ค.
๐ง ์ฃผ์ ๊ธฐ์ฌ
์ ๋ก์ท CIR ํ๋ ์์ํฌ ์ ์(ZS-CIR)
- Textual Inversion์ ํ์ฉํด ์ฐธ์กฐ ์ด๋ฏธ์ง๋ฅผ ์๋ก์ด ๊ฐ๋ ํ ํฐ์ผ๋ก ์๋ฒ ๋ฉ
- ์์ ํ ์คํธ์ ๊ฒฐํฉํ์ฌ ์กฐํฉ ์ฟผ๋ฆฌ ํ์ฑ
- ๋ฐ์ดํฐ์ ๋ณ ํ์ต ์์ด ๋ค์ํ ๋๋ฉ์ธ ์ ์ฉ ๊ฐ๋ฅ
CIRCO ๋ฐ์ดํฐ์ ๊ตฌ์ถ
- COCO 2017 ๊ธฐ๋ฐ์ ํ์ค ์ด๋ฏธ์ง ์ฌ์ฉ
- ๊ฐ์ฒด ์ค์ฌ(object-centric) + ๋ค์ค ๊ฐ์ฒด ํฌํจ ์ฟผ๋ฆฌ
- ์ค์ ์ฅ๋ฉด์์ ๊ฐ์ฒด ์์ฑ ๋ณ๊ฒฝ + ๊ฐ์ฒด ๊ฐ ๊ด๊ณ ์์ ๋ฐ์
๋ฒค์น๋งํฌ ๋ฐ ์ ๋ก์ท ์ฑ๋ฅ
- CIRR, FashionIQ, CIRCO์์ ์ ๋ก์ท ์ฑ๋ฅ ๊ฒ์ฆ
- ํ์ต ์์ด๋ ์๋ฏธ ์๋ ์ฑ๋ฅ ํ๋ณด
๐ง ์ฃผ์ ๊ธฐ์ฌ (์์ธํ!!)
1. ์ ๋ก์ท CIR ํ๋ ์์ํฌ ์ ์ (ZS-CIR)
- ๊ธฐ์กด ๋ฌธ์
- CIRR, FashionIQ ๊ฐ์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์์๋ ๋๋ถ๋ถ ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ธํ๋์ ๊ฑฐ์ณ์ผ ํ์
- ๋ฐ๋ผ์ ์๋ก์ด ๋๋ฉ์ธ์ด๋ unseen ์นดํ ๊ณ ๋ฆฌ์์๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋๋ ๋ฌธ์ ์กด์ฌ
- ํต์ฌ ์์ด๋์ด
- Textual Inversion ๊ธฐ๋ฒ์ CIR์ ์ ๋ชฉ
- ์ฐธ์กฐ ์ด๋ฏธ์ง๋ฅผ ์๋ก์ด ํ ํฐ(embedding)์ผ๋ก ๋ณํ โ ๋ง์น โ๋จ์ดโ์ฒ๋ผ ํ์ฉ
- ์์ ํ ์คํธ์ ๊ฒฐํฉ โ ์ต์ข ์ ์ผ๋ก โ์ด๋ฏธ์ง+๋ฌธ์ฅ ์กฐํฉ ์ฟผ๋ฆฌโ ํ์ฑ
- ์ฅ์
- ์ถ๊ฐ ํ์ต ์์ด๋ ๊ฒ์ ๊ฐ๋ฅ (Zero-Shot)
- ํน์ ๋๋ฉ์ธ(ํจ์ , ์ค์ํ ์ด๋ฏธ์ง ๋ฑ)์ ๊ตญํ๋์ง ์๊ณ ๋ฒ์ฉ์ฑ ํ๋ณด
- ์ถ๋ก ๊ณผ์ ์ด ๋จ์ํด ํจ์จ์ฑ๋ ๋ณด์ฅ
2. CIRCO ๋ฐ์ดํฐ์ ๊ตฌ์ถ
CIRCO๋ CIR ์ฐ๊ตฌ์์ ์ฒ์์ผ๋ก ์ ๋ก์ท ์กฐํฉ ๊ฒ์์ ๊ฐ๋ฅํ๊ฒ ํ์ ๋ฟ ์๋๋ผ,
๋ฐ์ดํฐ์ ์ธก๋ฉด์์๋
- ๋ณต์์ ์ ๋ต
- ํ์ค์ ์ด๋ฏธ์ง
- ๋ณต์กํ ์ฟผ๋ฆฌ ๊ตฌ์ฑ
์ ๋ฐ์ํด CIR ํ๊ฐ์ ์ง์ ์์ค์ ๋์ด์ฌ๋ฆฐ ๊ธฐ๋ ๋น์ ์ฐ๊ตฌ์ ๋๋ค.
- ํ์ค์ฑ
- MS-COCO 2017 ์ด๋ฏธ์ง ๊ธฐ๋ฐ
- ํน์ ๋๋ฉ์ธ(์: ํจ์ ) ํธํฅ์ ์ค์ด๊ณ , ๋ค์ํ ๋ฌผ์ฒดยท๋ฐฐ๊ฒฝยท๊ด๊ณ์ฑ์ ํฌํจ
- ๊ฐ์ฒด ์ค์ฌ (Object-Centric)
- ๋จ์ํ โ์ ์ฒด ์ฅ๋ฉดโ์ด ์๋๋ผ, ํน์ ๊ฐ์ฒด์ ์์ฑ ๋ณํ๋ฅผ ๋ฐ์ํ๋ ์ฟผ๋ฆฌ ์ ๊ณต
- ์: โ์ฌ์ง ์ ์๋์ฐจ๋ ๋นจ๊ฐ์์ผ๋ก ๋ฐ๊พธ๊ณ , ์์ ์๋ ๊ฐ์์ง๋ ๊ณ ์์ด๋ก ๋ฐ๊ฟ์ค.โ
- ๋ณต์ ์ ๋ต (Multi-Ground Truths)
- ์ฟผ๋ฆฌ๋น ํ๊ท 4.53๊ฐ์ ํ๊น ์ด๋ฏธ์ง ์กด์ฌ
- ๊ธฐ์กด FashionIQ ๊ฐ์ ๋จ์ผ ์ ๋ต ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ๊ทน๋ณต
- False Negative ๋ฌธ์ ์ํ โ ๊ฒ์ ๋ชจ๋ธ ํ๊ฐ๊ฐ ํจ์ฌ ๊ณต์ ํด์ง
- ๋ณต์กํ ์ง์ (Complex Queries)
- ๊ฐ์ฒด ์์ฑ ์์ ๋ฟ ์๋๋ผ ๋ค์ค ๊ฐ์ฒด ๋ฐ ๊ฐ์ฒด ๊ฐ ๊ด๊ณ๋ฅผ ํฌํจ
- ๋จ์ํ โ์์ ๋ณ๊ฒฝโ์ ๋์ด
- โ์ฌ๋์ด ์์ ์๋ ์์น์ ๋ค๋ฅธ ์ธ๋ฌผ์ด ์ ์๋คโ
- โ๊ฐ๊ฐ ์๋ ์๋ฆฌ์ ๊ณ ์์ด๊ฐ ์๋คโ ๊ฐ์ ๋ณตํฉ ์ฟผ๋ฆฌ๋ ํฌํจ
3. ๋ฒค์น๋งํฌ ๋ฐ ์ ๋ก์ท ์ฑ๋ฅ
ํ๊ฐ ๋ฐ์ดํฐ์ : CIRR, FashionIQ, CIRCO ๋ฑ ์ฃผ์ CIR ๋ฒค์น๋งํฌ์์ ์ ๋ก์ท ์ฑ๋ฅ ๊ฒ์ฆ
- FashionIQ (Validation Set)
- SEARLE (B/32): ํ๊ท R@10 = 22.89, R@50 = 42.53
- SEARLE-XL (L/14): ํ๊ท R@10 = 25.56, R@50 = 46.23
- ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํ์ฐํ ํฅ์, Bases์ผ๋๋ ํ๋กฌํฌํธ๋ฅผ ํ์ต์ํจ OTI๋ณด๋ค ๊ทธ๋ฅ SEARLE๊ฐ ๋ ์ข์๋๊ฐ ๋ง์์!!
- CIRR (Test Set)
- SEARLE (B/32): Recall@1 = 24.27, Recall@5 = 53.22, Recall@10 = 66.82
- SEARLE-XL (L/14): Recall@1 = 24.22, Recall@5 = 52.48, Recall@10 = 66.29
- SEARLE์ด ํ๋กฌํฌํธ ํ์ตํ๊ฒ ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์์!@
- Subset Recall (๋ ์ ๋ฐํ ํ๊ฐ)์์๋ SEARLE-XL์ด Recall@3 = 88.19๋ก SOTA ์์ค ์ฑ๋ฅ ํ๋ณด
- ์์
- ๋จ์ํ Zero-Shot ์ ๊ทผ์์๋ ๋ถ๊ตฌํ๊ณ , FashionIQ์ CIRR์์ ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ๊ธฐ๋ฒ๋ณด๋ค ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๊ธฐ๋ก
- ํนํ CIRR์์๋ Recall@1์ด 24%๋ฅผ ๋์ผ๋ฉฐ, ํ์ต ์์ด๋ ์๋ฏธ ์๋ ๊ฒ์ ํ์ง์ ๋ณด์ฅ
- ์ด๋ CIR ์ฐ๊ตฌ์์ Zero-Shot ์ ๊ทผ์ ๊ฐ๋ฅ์ฑ์ ์ต์ด๋ก ์ค์ฆํ ์ฑ๊ณผ์ด๋ฉฐ, ์ดํ CIReVL (ICLR 2024), OSrCIR (CVPR 2025) ๊ฐ์ Training-Free ๊ณ์ด ์ฐ๊ตฌ๋ก ์ด์ด์ง๋ ๊ธฐ๋ฐ์ ๋ง๋ จํจ
๐งฉ ๊ฒฐ๋ก
CIRCO (ICCV 2023)๋ Textual Inversion ๊ธฐ๋ฐ ์ ๋ก์ท CIR(ZS-CIR)์ ์ ์ํ๊ณ ,
ํ์ค์ฑ๊ณผ ์ ๊ตํจ์ ๊ฐํํ ์๋ก์ด ๋ฐ์ดํฐ์ (CIRCO)์ ๊ตฌ์ถํ์ต๋๋ค.
์ด๋ CIR ์ฐ๊ตฌ๊ฐ โํ์ต ๊ธฐ๋ฐ + ๋จ์ผ ์ ๋ตโ์์ โ์ ๋ก์ท + ๋ค์ค ์ ๋ต + ๋ณต์ก ์ง์โ๋ก
์งํํ๋ ์ถ๋ฐ์ ์ด ๋์์ต๋๋ค.
๐ง (English) Zero-Shot Composed Image Retrieval with Textual Inversion!! CIRCO
In this work, the authors released the ZS-CIR model and also introduced the CIRCO dataset!!
- Title: Zero-Shot Composed Image Retrieval with Textual Inversion
- Conference: ICCV 2023 (Zhang et al.)
- Code: CIRCO (GitHub)
- Key Keywords:
Composed Image Retrieval
,CIRCO
,Textual Inversion
,Zero-Shot
,ICCV 2023
,ZS-CIR
,SEARLE
- Note!!: The terms
ZS-CIR
andSEARLE
both refer to the model released in this paper. ZS-CIR
is the abbreviation of Zero-Shot Composed Image Retrieval, whileSEARLE
stands for zero-Shot composEd imAge Retrieval with textuaL invErsion.
๐ Background
CIRR (ICCV 2021) defined Composed Image Retrieval (CIR) but relied heavily on training-based methods and single ground-truth labels.
However, in real-world scenarios, new demands have emerged:
โWe need to retrieve images in unseen domains,
without additional training (Zero-Shot),
using reference images + textual modifications,
while allowing multiple correct answers!โ
To meet these demands, the ICCV 2023 paper proposed:
- ZS-CIR model โ a Textual Inversion-based zero-shot CIR framework
- CIRCO dataset โ a more realistic and fine-grained benchmark
๐ง Key Contributions
Zero-Shot CIR Framework (ZS-CIR)
- Applied Textual Inversion to embed reference images as new concept tokens
- Combined with modification text to form composed queries
- Applicable across domains without dataset-specific training
CIRCO Dataset
- Based on COCO 2017 real-world images
- Object-centric queries including multiple objects
- Captures attribute changes + object relationships in natural scenes
Benchmark & Zero-Shot Performance
- Evaluated on CIRR, FashionIQ, and CIRCO
- Achieved meaningful zero-shot performance without additional training
๐ง Key Contributions (Detailed)
1. Zero-Shot CIR Framework (ZS-CIR)
- Problem
- Previous datasets like CIRR and FashionIQ required fine-tuning on training data
- Performance dropped drastically on unseen domains or categories
- Core Idea
- Incorporate Textual Inversion into CIR
- Convert reference images into pseudo-word tokens (embeddings), treated like โwordsโ
- Combine with modification text โ final image+text composed query
- Advantages
- Enables retrieval without additional training (Zero-Shot)
- Domain-agnostic: works across fashion, real-life, and beyond
- Simple inference pipeline with efficient retrieval
2. CIRCO Dataset
CIRCO is not only the first to enable zero-shot composed retrieval,
but also advances CIR evaluation by providing:
- Multiple ground truths
- Real-world images
- Complex queries
โ raising the evaluation quality of CIR benchmarks
- Realism
- Built on MS-COCO 2017
- Avoids domain bias (e.g., fashion-only) and covers diverse scenes, objects, and contexts
- Object-Centric
- Queries reflect changes in specific objects, not only the global scene
- Example: โChange the car in the image to red, and replace the dog with a cat.โ
- Multiple Ground Truths
- On average, 4.53 target images per query
- Overcomes the single-ground-truth limitation of FashionIQ
- Mitigates False Negative issue โ fairer evaluation of retrieval systems
- Complex Queries
- Includes not only attribute modifications but also multi-object and relational changes
- Beyond โcolor change,โ includes cases like:
- โA person sitting becomes another person standingโ
- โReplace the dog with a catโ
3. Benchmark & Zero-Shot Performance
Evaluation Datasets: CIRR, FashionIQ, CIRCO
- FashionIQ (Validation Set)
- SEARLE (B/32): Avg R@10 = 22.89, R@50 = 42.53
- SEARLE-XL (L/14): Avg R@10 = 25.56, R@50 = 46.23
- In some cases, plain SEARLE outperformed the optimized OTI version
- CIRR (Test Set)
- SEARLE (B/32): Recall@1 = 24.27, Recall@5 = 53.22, Recall@10 = 66.82
- SEARLE-XL (L/14): Recall@1 = 24.22, Recall@5 = 52.48, Recall@10 = 66.29
- SEARLE achieved better results than OTI-trained prompts in some settings
- Subset Recall: SEARLE-XL reached Recall@3 = 88.19, achieving SOTA-level performance
- Significance
- Even with a pure Zero-Shot setup, SEARLE achieved competitive performance compared to training-based approaches
- On CIRR, Recall@1 exceeded 24%, proving high-quality retrieval without training
- This milestone validated the feasibility of Zero-Shot CIR, laying the groundwork for follow-up works such as CIReVL (ICLR 2024) and OSrCIR (CVPR 2025)
๐งฉ Conclusion
CIRCO (ICCV 2023) introduced Textual Inversion-based Zero-Shot CIR (ZS-CIR / SEARLE)
and established a new, more realistic dataset (CIRCO).
This work marked the evolution of CIR from โtraining-based + single ground-truthโ
to โzero-shot + multiple ground-truths + complex queries.โ