๐๏ธ MLLMs Know Where to Look: Training-free Visual Detail Perception
๐๏ธ MLLMs Know Where to Look: Training-free Perception of Visual Details
- Title: MLLMs know where to look: Training-free perception of small visual details with multimodal LLMs
- Conference: ICLR 2025 (Zhang, Jiarui et al.)
- Code: saccharomycetes/mllms_know
- Keywords:
Multimodal LLM
,Small Visual Details
,Attention Map
,Cropping
,Gradient
,Inference
๐ง TL;DR in 3 Lines
MLLMs are generally good at knowing where to look,
but often fail to understand what theyโre seeing.Simply cropping the relevant part of the image and feeding it back
significantly improves detail-level recognition.If the image is too large, it is split and reprocessed to ensure accurate attention.
โ ๏ธ Problem Background
- MLLMs often fail on questions about small objects in an image,
but they succeed if we crop and provide only the relevant region.
๐ Datasets Used
The authors validate their method on the following 6 datasets:
Dataset | Purpose | Image Type | Question Focus | External Knowledge | Example Models |
---|---|---|---|---|---|
DocVQA | Document-level question answering | Document images (PDFs) | Text extraction + layout understanding | โ | LayoutLM, Donut, DocFormer |
TextVQA | Scene text-based VQA | Natural images w/ text | Text in context of visual scene | โ | M4C, GRILL, LLaVA |
POPE | Evaluating model bias and hallucination | Mixed image types | Robustness to misleading contexts | โ | BLIP2, Pythia |
A-OKVQA | Knowledge-based multiple-choice VQA | Natural images | External knowledge + choice selection | โ | ReGAT, RAVQA, NoteMR |
GQA | Relation reasoning and scene understanding | Complex scenes | Logic and spatial reasoning | โ | MAC, NS-VQA, GraftNet |
VQAv2 | General-purpose VQA benchmark | Natural images | Object, attribute, and general questions | โ | UpDn, Pythia, LXMERT |
๐ง Three Key Investigations
Can humans solve these problems better just by cropping?
โ Manually cropping the region significantly improved model performance!Do LLMs fail because they donโt know where to look, or because they canโt understand even when looking correctly?
โ Itโs the latter: they look in the right place but misinterpret it.Then what if we just show them the right region only?
โ That works very well!
0. Human cropping improves accuracy
- When humans crop only the relevant region of the image,
- MLLMs answer detail-based questions much more accurately.
๐ 1. Do MLLMs attend to the right place?
- By visualizing attention layers,
- It turns out the model does look in the right area even when it gives a wrong answer.
โ๏ธ 2. Just give the right region โ better performance!
- As seen above, cropping and reinserting alone greatly boosts performance
- So, how to crop effectively?
- The authors propose 3 attention-based cropping strategies:
Method | Description |
---|---|
Rel-Att (Relative Attention) | Compares attention maps between the true question and a generic one to highlight the difference |
Grad-Att (Gradient-weighted Attention) | Uses gradients to find regions most sensitive to the modelโs confidence |
Pure-Grad (Input Gradient) | Uses input image gradients to locate visually salient pixels |
Cropping pipeline:
- Input: image + question
- Process: compute attention map via one of the above โ derive ROI crop
- Output: crop image โ reinsert to MLLM โ generate answer
The paper also compares cropping methods using external tools like YOLO, CLIP, and SAM:
Surprisingly, even against SOTA external methods, their proposed internal methods held up well.
Method | One-line Summary |
---|---|
CLIP ViCrop | Uses CLIP similarity to iteratively crop toward the most semantically aligned region |
YOLO ViCrop | Selects bounding boxes from YOLO with highest CLIP similarity to the question |
SAM ViCrop | Converts segmentation masks from SAM into bounding boxes, then selects the one with best CLIP match |
๐งช Experiment Results
- The system performs inference-only croppingโno retraining required
- Large images are pre-cropped to better guide attention
- Evaluation covers multiple datasets and question types
๐ Key Results
- Attention-based crops like Rel-Att and Grad-Att outperform other approachesโespecially for small-object questions.
- Cropping greatly helps when image resolution is high.
Summary of Effects:
Setup | Performance Impact |
---|---|
Full image only | Poor on detail-based questions |
Crop via attention-guided methods | Much higher accuracy |
No retraining needed | Zero-shot + Inference-time only |
Overall, this approach greatly improves fine-grained perception,
even without scaling up the model size.
โ Conclusion & Impact
- The paper shows MLLMs already know where to look,
but need help seeing better via focused cropping. - Significant performance gains are possible without any retrainingโjust with attention-based inference.
- Has strong applicability in domains like OCR, tiny-object detection, or interactive AI tutors.
โMLLMs know where to look. Letโs help them see better.โ
๐๏ธ (ํ๊ตญ์ด) MLLMs Know Where to Look: Training-free ์๊ฐ ๋ํ ์ผ ์ธ์
- ์ ๋ชฉ: MLLMs know where to look: Training-free perception of small visual details with multimodal llms
- ํํ: ICLR 2025 (Zhang, Jiarui et al.)
- Code: saccharomycetes/mllms_know
- ํต์ฌ ํค์๋:
Multimodal LLM
,Small Visual Details
,Attention Map
,Cropping
,Gradient
,Inference
๐ง 3์ค ์์ฝ
MLLM์ ์ด๋ฏธ์ง ๋ด โ์ด๋๋ฅผ ๋ณด๋์งโ๋ ์ ํ์ ํ์ง๋ง,
โ๋ฌด์์ ๋ณด๋์งโ๋ ์ ํํ ์ธ์ํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์์.์ด๋ฏธ์ง์ ์ค์ํ ๋ถ๋ถ์ cropํด์ ๋ค์ ์ ๋ ฅํ๋ฉด,
๋ชจ๋ธ์ด ์๊ฐ์ ๋ํ ์ผ์ ํจ์ฌ ์ ํํ ์ธ์ํจ.์ด๋ฏธ์ง๊ฐ ๋๋ฌด ํฐ ๊ฒฝ์ฐ์๋ ์ ํํ attention์ ์ํด ์๋ผ์ ์ฌ์ฉํ๊ณ ๋ถ์!
โ ๏ธ ๋ฐฐ๊ฒฝ: ๊ธฐ์กด ๋ฌธ์ ์ ์์ฝ
- ์ด๋ฏธ์ง ๋ด์์ ์์ ๊ฐ์ฒด์ ๋ํ ์ง๋ฌธ์ ํ์๋ ๋ต์ ํ๋ฆฌ์ง๋ง, ํด๋น ๋ถ๋ถ๋ง์ crop ํด์ ๋ณด์ฌ์ฃผ๋ฉด ๋ต์ ์ํจ
์ฐธ๊ณ . ์ฌ์ฉํ ๋ฐ์ดํฐ์
- ์ฌ๊ธฐ์๋ ๋ก์ง๊ฒ์ฆ์ ์ํด ์๋ 6๊ฐ์ง ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ต๋๋ค!!
๋ฐ์ดํฐ์ | ์ฃผ์ ๋ชฉ์ | ์ด๋ฏธ์ง ์ ํ | ์ง๋ฌธ ์ด์ | ์ธ๋ถ ์ง์ ํ์ | ๋ํ ๋ชจ๋ธ ์์ |
---|---|---|---|---|---|
DocVQA | ๋ฌธ์ ๊ธฐ๋ฐ ์ง์์๋ต (์ธ๋ณด์ด์ค, ๋ณด๊ณ ์ ๋ฑ) | ๋ฌธ์ ์ด๋ฏธ์ง (PDF ๋ฑ) | ํ ์คํธ ์ ๋ณด ์ถ์ถ + ๋ฌธ์ ๊ตฌ์กฐ ์ดํด | โ | LayoutLM, Donut, DocFormer |
TextVQA | ์ฅ๋ฉด ๋ด ๊ธ์๋ฅผ ํฌํจํ ์ง์์๋ต | ์์ฐ ์ด๋ฏธ์ง + ํ ์คํธ | ์๊ฐ ๋ฌธ๋งฅ ์ ํ ์คํธ ์ดํด | โ | M4C, GRILL, LLaVA |
POPE | VQA ๋ชจ๋ธ์ ํธํฅ(Bias)๊ณผ ํ๊ฐ(Hallucination) ํ๊ฐ | ๋ค์ํ (ํผํฉํ) ์ด๋ฏธ์ง | ๋ชจ๋ธ์ bias robustness ํ๊ฐ | โ | BLIP2, Pythia |
A-OKVQA | ์ธ๋ถ ์ง์ ๊ธฐ๋ฐ VQA + ์ ๋ ํ๊ฐ | ์์ฐ ์ด๋ฏธ์ง | ์ง์ ๊ธฐ๋ฐ ์ง์ + ์ ํ์ง ๊ธฐ๋ฐ ์๋ต | โ | ReGAT, RAVQA, NoteMR |
GQA | ๊ด๊ณ ์ถ๋ก , ๊ฐ์ฒด ๊ฐ ์๋ฏธ์ ์ฐ๊ฒฐ | ๋ณต์กํ ์ฅ๋ฉด ์ด๋ฏธ์ง | ์ฅ๋ฉด ์ดํด + ๊ด๊ณ ๊ธฐ๋ฐ ์ง์์๋ต | โ | MAC, NS-VQA, GraftNet |
VQAv2 | ์ผ๋ฐ VQA ๋ฒค์น๋งํฌ, ๋ค์ํ ์ง๋ฌธ ์ ํ ํฌํจ | ์์ฐ ์ด๋ฏธ์ง | ๊ฐ์ฒด, ์์ฑ, ์ฅ๋ฉด ๋ฑ ์ ๋ฐ์ ์ง์์๋ต | โ | UpDn, Pythia, LXMERT |
๐ง 3๊ฐ์ง ๋จ๊ณ๋ก ๋๋์ด์ ํด๊ฒฐ ๋ฐฉ๋ฒ์ ์ฐพ์
- ์ ๋ง ์์ ๋ถ์๋ฅผ cropํด์ ๋ณด์ฌ์ฃผ๋ฉด ๋ฌธ์ ๋ฅผ ์ ๋ง์ถ๊น?
- ์ฌ๋์ด ํฌ๋กญํด์ ํ ์คํธํด๋ด!!
- LLM์ ์ด๋๋ฅผ ๋ณผ์ง๋ ๋ชฐ๋ผ์ ํ๋ฆฐ๊ฑธ๊น? ํน์ ๋ถ์๋ ์ ์ฐพ์๋๋ฐ ์๋ชป ์ธ์งํ๊ฑธ๊น?
- ๊ฒฐ๋ก ์ ํ์, ๋ถ์๋ ์ ์ฐพ์์ง๋ง ์๋ชป ์ธ์งํ๊ฒ์!
2.๊ทธ๋ผ! ํด๋น ๋ถ์๋ง์ ์ ์ํ๋ง ์ ์๋ํ ๊น??
- ๊ทธ๋ ๋ค!!
0. ์ ๋ง ์์ ๋ถ์๋ฅผ cropํด์ ๋ณด์ฌ์ฃผ๋ฉด ๋ฌธ์ ๋ฅผ ์ ๋ง์ถ๊น?
- ์ด๋ฏธ์ง ๋ด์ ์์ ๋ถ๋ถ์ ๋ง์ถ๋ ์ง๋ฌธ์์,
- ์ฌ๋์ด ์ ๋ต๋ถ๋ถ๋ง cropํด์ ์ ์ํ ๊ฒฝ์ฐ ํ์คํ ์ ๋๋ตํด!!
๐ 1. LLM์ ์ด๋๋ฅผ ๋ณผ์ง๋ ๋ชฐ๋ผ์ ํ๋ฆฐ๊ฑธ๊น? ํน์ ๋ถ์๋ ์ ์ฐพ์๋๋ฐ ์๋ชป ์ธ์งํ๊ฑธ๊น?
- MLLM ๋ ์ด์ด์์ ์ดํ ์ ์ ์ถ์ถํด์ ์์ํํด๋ณด๋ฉด!!
- ๋น๋ก ์ ๋ต์ ํ๋ ธ์ง๋ง ์ด๋๋ฅผ ๋ด์ผํ๋์ง๋ ์ ์๊ณ ์๋ค๋๊ฒ์ ์์ ์์ง!!
โ๏ธ 2.๊ทธ๋ผ! ํด๋น ๋ถ์๋ง์ ์ ์ํ๋ง ์ ์๋ํ ๊น??
- 0์์ ํ์ธํ๋ฏ, ์ด๋ฏธ์ง๋ฅผ ์๋ผ ๋ค์ ๋ฃ๊ธฐ๋ง ํด๋ ์ฑ๋ฅ์ด ๊ธ์์น!
- ๊ทธ๋ผ, ์ด๋ป๊ฒ crop ํ์ง?!
- 3๊ฐ์ง Attention ๊ธฐ๋ฐ Cropping ์ ๋ต
๋ฐฉ๋ฒ | ์ค๋ช |
---|---|
Rel-Att (Relative Attention) | ์ ๋ต ์ง๋ฌธ vs ์ผ๋ฐ ์ง๋ฌธ์ attention map์ ๋น๊ตํด, ์ฐจ์ด์ ์ ๊ฐ์กฐํ์ฌ crop ์์ญ ๋์ถ |
Grad-Att (Gradient-weighted Attention) | ์ ๋ต ํ๋ฅ ์ ๋ํ gradient๋ฅผ ํตํด ๋ฏผ๊ฐ ์์ญ์ ๊ฐ์กฐํจ |
Pure-Grad (Input Gradient) | ์ด๋ฏธ์ง ์์ฒด์ gradient๋ฅผ ํตํด, ํฝ์ ๋จ์๋ก ์ค์ํ ์์ญ์ ์ถ์ถํจ |
crop ๋ฐฉ๋ฒ์?
- ์ ๋ ฅ: ์ด๋ฏธ์ง + ์ง๋ฌธ
- ์ฒ๋ฆฌ: ์ 3๊ฐ์ง ๋ฐฉ๋ฒ ์ค ํ๋๋ก attention map ๊ณ์ฐ โ crop ์์ญ ์ค์
- ์ถ๋ ฅ: crop๋ ์ด๋ฏธ์ง๋ฅผ MLLM์ ๋ค์ ๋ฃ์ด ๋ต์ ์์ฑ
์ถ๊ฐ๋ก ์ด๋ฒ ์ฐ๊ตฌ์์๋ YOLO, CLIP, SAM๋ฑ์ ์ฌ์ฉํ crop ๋ฐฉ๋ฒ๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ๊ณ !
๊ธฐ์กด SOTA ์ฐ๊ตฌ๋ฅผ ํ์ฉํ crop ๊ณผ ๋น๊ตํด๋ ๋์์ง ์์๋ค!!
๋ฐฉ๋ฒ | ํ ์ค ์์ฝ |
---|---|
CLIP ViCrop | CLIP์ ์ฌ์ฉํด ์ง๋ฌธ๊ณผ ์๋ฏธ์ ์ผ๋ก ๊ฐ์ฅ ๊ด๋ จ ์๋ ์์ญ์ ์ ์ง์ ์ผ๋ก ์๋ผ๊ฐ๋ฉฐ ๋ฐ๋ณต ์ ํํ๋ ๋ฐฉ์. |
YOLO ViCrop | YOLO๋ก ํ์ง๋ ๊ฐ์ฒด ์์ญ ์ค, ์ง๋ฌธ๊ณผ CLIP ์ ์ฌ๋๊ฐ ๊ฐ์ฅ ๋์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ํํ๋ ๋ฐฉ์. |
SAM ViCrop | SAM์ด ์ ๊ณตํ๋ ์ธ๊ทธ๋ฉํธ ๋ง์คํฌ๋ฅผ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ก ๋ณํํ ํ, CLIP ์ ์ฌ๋๊ฐ ๊ฐ์ฅ ๋์ ์์ญ์ ์ ํํ๋ ๋ฐฉ์. |
๐งช ์คํ ๋ถ์ ๊ฒฐ๊ณผ!!
- ์คํ์ training ์์ด, inference ์ attention ๊ธฐ๋ฐ crop์ ์ํํ๋ ๊ตฌ์กฐ
- ํฐ ์ด๋ฏธ์ง๋ ์ฌ์ cropํ์ฌ attention์ด ๋ ์ ์กํ๋๋ก ์ค๊ณํจ
- ๋ค์ํ ์ง๋ฌธ ์ ํ์ ๋ํด crop ํ ๋ต๋ณ์ ์์ฑํ๊ณ ์ฑ๋ฅ ๋น๊ต
๐ ์ฃผ์ ์ฑ๊ณผ
- Rel-att ์ด๋ grad-att ๋ฐฉ์์ผ๋ก ํฌ๋กญํ๊ฒ์ด ๊ฐ์ฅ ๊ฒฐ๊ณผ๊ฐ ์ข๋ค!! ํนํ ์์ ๊ฐ์ฒด์ ๋ํ ์ง๋ฌธ์์!!
ํด์๋๊ฐ ํฐ ์ด๋ฏธ์ง๋, ์๋ผ์ ์์ ํ๋๊ฒ ํจ๊ณผ๊ฐ ์ข์๋ค!!
์ฑ๊ณผ ์์ฝ!!
| ์กฐ๊ฑด | ์ฑ๋ฅ | |โโ|โโ| | Full image ์ ๋ ฅ | ์์ ๋ํ ์ผ ์ง๋ฌธ์ ์ทจ์ฝ | | Attention-guided crop โ ์ฌ์ ๋ ฅ | ๋ํ ์ผ ์ง๋ฌธ ์ ํ๋ ์๋น ํฅ์ | | No retraining | Zero-shot + Inference-time only ๋ฐฉ์ |- ์คํ ๊ฒฐ๊ณผ, ์์ ๋ํ ์ผ์ด ์ค์ํ task์์ ์ฑ๋ฅ์ด ํ์ฐํ ํฅ์
- ํนํ ๊ธฐ์กด MLLM ๋๋น, ๊ณ ์ฑ๋ฅ ๋ํ๋ชจ๋ธ ์์ด๋ ๊ฐ์ ๊ฐ๋ฅ
โ ๊ฒฐ๋ก ๋ฐ ์์
- ์ด ๋
ผ๋ฌธ์ MLLM์ด ์ ํํ โ์ด๋๋ฅผ ๋ณด์์ผ ํ๋์งโ๋ ์ ์๋๋ฐ,
โ๋ณด๋ ๋ฐฉ์โ์ด ๋ถ์กฑํ๋ค๋ ์ ์ Attention-based Cropping์ผ๋ก ํด๊ฒฐํจ - Training ์์ด inference๋ง์ผ๋ก ์ฑ๋ฅ ํฅ์ ๊ฐ๋ฅํ๋ค๋ ์ ์์
๊ฒฝ๋ํ, ์์ฉ์ฑ, ํด์๋ ฅ ์ธก๋ฉด์์ ๋งค์ฐ ์ค์ฉ์ ์ธ ์ ๊ทผ - ๋ค์ํ downstream task (e.g. OCR, ์ธ๋ฐํ ๋ฌผ์ฒด ์ธ์, ํํฐ๋ง ์์คํ )์ ์์ฉ ๊ฐ๋ฅ
โMLLMs know where to look. Letโs help them see better.โ