๐ง Notes-guided MLLM Reasoning
๐ง (English) Notes-guided MLLM Reasoning
- Title: Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes
- Conference: CVPR 2025 (Fang et al.)
- Key Keywords:
Multimodal LLM
,Visual Reasoning
,Notes-guided Inference
,Visual Note
,Explainability
๐ง 3-Line Summary
- NoteMR refines external knowledge and image context to create Knowledge Notes.
- It identifies and extracts salient visual regions into Visual Notes to enhance perception.
- This approach improves KB-VQA performance on OK-VQA by 5.31%.
โ ๏ธ Two Key Limitations in Existing KB-VQA Methods
0. First of all, what is KB-VQA?
KB-VQA stands for Knowledge-Based Visual Question Answering. It involves not only understanding the image and question, but also utilizing external knowledge to answer complex, open-ended visual questions.
๐ฆ Representative KB-VQA Datasets
Dataset | Description | Question Type | Evaluation |
---|---|---|---|
OK-VQA | Requires external knowledge for answers | Open-ended | BLEU, ROUGE, answer matching |
A-OKVQA | OK-VQA extension with answer choices | Multiple choice | Accuracy |
GQA | Focused on relational reasoning and scene understanding | Structured QA | Logical consistency, reasoning metrics |
VCR | Visual Commonsense Reasoning | QA + Rationale | Choice + Explanation Accuracy |
๐ Difference between General VQA and KB-VQA
Aspect | General VQA | KB-VQA |
---|---|---|
Input | Image + Question | Image + Question + Knowledge |
Example Q | โWhat is the cat doing?โ | โWhat breed is this cat?โ |
Info Needed | Visual only | Visual + External knowledge |
Models | BLIP, GIT | TRiG, RAVQA-V2, NoteMR |
1. External Knowledge Can Be Noisy
- External knowledge retrieved from the web may be redundant or irrelevant, which can confuse the model and lead to incorrect answers.
Example:
Q: โWhat do they call running around the bases after hitting the ball?โ With retrieved info: answers โStealingโ (wrong) due to noisy text Without retrieval: correctly answers โHome runโ
2. ๐๏ธ Lacking Fine-Grained Visual Perception
- MLLMs often fail to pick up on subtle visual cues, leading to hallucinations or visually irrelevant answers.
Example:
Despite a green light in the image, model answers โStopโ due to poor visual focus.
๐ Method Summary
๐ง Knowledge Note Generation Filters retrieved external knowledge + image context to generate clean and relevant knowledge notes.
๐๏ธ Visual Note Generation Extracts attentive visual regions informed by knowledge notes, reduces hallucinations, and strengthens perception.
๐ Achieves SOTA Performance
- +5.31% on OK-VQA
- +3.4% on A-OKVQA
๐งช Method Architecture
1. Creating Textual Notes (N_kl
)
- Unlike past approaches that only extract knowledge, NoteMR combines external and internal knowledge to create notes.
- External knowledge sources: Google Search Corpus + Wikidata
Top-k Selection:
Q
: fused embedding of the question and visual featuresD
: candidate documents embedded- Use relevance score between
Q
andD
to pick top-5 passages
N_kl
Construction:
- Prompt
c_k
, imageV
, top-k passagesP
- Text encoder: PreFLMR
- Image encoder (at this stage): CLIP
2. Creating Visual Notes (N_vl
)
- Extract visual patches using GradCAM with cross-modal attention
- Convert original image
V
into 576 patches (16x16) - Compute attention scores between
N_kl
tokens and visual patches Use transformer attention:
- Q =
N_kl
- K = key-weighted
V
- V = value-weighted
V
- Q =
- Combine heads โ generate heatmap
H
โ apply thresholdฮป = 0.6
to mask - Masked visual embedding becomes final
N_vl
- Image encoder: BLIP
3. Final Answer Selection
- Inputs: question
q
, imageV
, knowledge noteN_kl
, visual noteN_vl
- Format into final prompt (see below)
- Generate
c_0
candidate answers and choose the best (used 3 candidates in experiments)
๐ฎ Results
Did it perform well? Absolutely!
- Outperforms all baselines on OK-VQA and A-OKVQA
- Even beats 13B competitors using LLaVA-NeXT-8B
Ablation (Table 3):
Step-by-step improvements observed:
- MLLM only
- Retrieved Knowledge
- Knowledge Notes
- Visual Notes
- Candidate Output Selection
โ Conclusion
- Introduces a modular, note-based architecture for MLLM reasoning
- Transitions MLLM from naive answering to structured reasoning
- High potential for use in RAG, AI tutors, and multi-hop QA systems
๐ง (ํ๊ตญ์ด) Notes-guided MLLM Reasoning
- ์ ๋ชฉ: Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes
- ํํ: CVPR 2025 (Fang et al.)
- ํต์ฌ ํค์๋:
Multimodal LLM
,Visual Reasoning
,Notes-guided Inference
,Visual Note
,Explainability
๐ง 3์ค ์์ฝ
NoteMR์ ์ธ๋ถ ์ง์๊ณผ ์ด๋ฏธ์ง๋ฅผ ์ ์ ํด Knowledge Note๋ฅผ ๋ง๋ค๊ณ ,
์ด๋ฏธ์ง์ ํต์ฌ ์์ญ๋ง ์ถ์ถํด Visual Note๋ก ์๊ฐ ์ ๋ณด ์ธ์์ ๊ฐ์ ํ๋ฉฐ,
์ด๋ฅผ ํตํด KB-VQA ์ฑ๋ฅ์ OK-VQA ๊ธฐ์ค 5.31% ํฅ์์ํจ ์ต์ ๊ธฐ๋ฒ์ด๋ค.
โ ๏ธ ๊ธฐ์กด ๋ฐฉ์์ ์ฃผ์ ํ๊ณ 2๊ฐ์ง
0. ์ฐ์ !! KB-VQA๋!??
KB-VQA๋ Knowledge-Based Visual Question Answering์ ์ค์๋ง๋ก,
๋จ์ํ ์ด๋ฏธ์ง์ ์ง๋ฌธ์ ์ดํดํ๋ ๊ฒ์ ๊ทธ์น์ง ์๊ณ ,
์ธ๋ถ ์ง์(knowledge)์ ํ์ฉํด ์ ๋ต์ ์ถ๋ก ํด์ผ ํ๋ ๊ณ ์ฐจ์ ์๊ฐ์ถ๋ก ๊ณผ์ ์ ๋๋ค.
๐ฆ ๋ํ KB-VQA ๋ฐ์ดํฐ์ ์๊ฐ
๋ฐ์ดํฐ์ | ์ค๋ช | ์ง๋ฌธ ์ ํ | ํ๊ฐ ๋ฐฉ์ |
---|---|---|---|
OK-VQA | Outside Knowledge VQA. ์ธ๋ถ ์ง์ ์์ด๋ ๋ต์ด ์ด๋ ค์ด ์ง๋ฌธ์ ํฌํจ | ์คํํ (open-ended) | BLEU, ROUGE, ์ ๋ต ๋งค์นญ ๋ฑ |
A-OKVQA | OK-VQA์ ํ์ฅํ. ์ ๋ต ํ๋ณด๋ฅผ ํฌํจํ์ฌ ์ ๋ ํ๊ฐ ๊ฐ๋ฅ | ์ ํํ (multiple-choice) | ์ ๋ต ์ ํ ์ ํ๋ |
GQA | ๋ณต์กํ ๊ด๊ณ ์ถ๋ก ๊ณผ ์ฅ๋ฉด ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐ | ๊ตฌ์กฐํ๋ ์ง๋ฌธ/๋ต๋ณ | ๋ ผ๋ฆฌ ์ ํ๋, ์ถ๋ก ํจํด ๋ถ์ |
VCR | Visual Commonsense Reasoning. ์ํฉ์ ๋ํ ์์์ ์ถ๋ก ์๊ตฌ | ์ง๋ฌธ + ์ด์ ์ค๋ช | ์ ๋ต ์ ํ + rationale ํ๊ฐ |
๐ ์ผ๋ฐ VQA์ KB-VQA์ ์ฐจ์ด์
ํญ๋ชฉ | ์ผ๋ฐ VQA | KB-VQA |
---|---|---|
์ ๋ ฅ | ์ด๋ฏธ์ง + ์ง๋ฌธ | ์ด๋ฏธ์ง + ์ง๋ฌธ + ์ธ๋ถ ์ง์ |
์์ ์ง๋ฌธ | โ์ด ๊ณ ์์ด๋ ๋ฌด์์ ํ๊ณ ์๋์?โ | โ์ด ๊ณ ์์ด๋ ์ด๋ ํ์ข ์ธ๊ฐ์?โ |
ํ์ํ ์ ๋ณด | ์ด๋ฏธ์ง ์ ์๊ฐ ์ ๋ณด | ์ด๋ฏธ์ง + ๋ฐฐ๊ฒฝ ์ง์ (e.g. ํ์ข ์ง์) |
๋ํ ๋ชจ๋ธ | BLIP, GIT ๋ฑ | TRiG, RAVQA-V2, NoteMR ๋ฑ |
- KB-VQA์ ๊ธฐ์กด ๋ฐฉ์์
- ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ๊ธฐ (Retrieval Method)
1-1.ConceptNet
๊ณผ ๊ฐ์ ๊ณ ์ ๋ ์ง์(fxed knowledge bases) ์ฌ์ฉํ๊ธฐ
1-2. open-world knowledge(Google์ด๋ Wikipedia) ์์ ์ ๋ณด ๊ฐ์ ธ์ค๊ธฐ - LLM์ ํ์ฉํ๊ธฐ (Implicit Method)
- ์บก์ ์ ์ถ๊ฐํ์ฌ ๋ตํ๊ฑฐ๋, ์์ฒด์ ์ผ๋ก ์ง์์ ํธ์ถํด์ ๋ตํ๊ธฐ ๋ฑ์ ๊ธฐ๋ฒ๋ค!! (PICA, PromptCap ๋ฑ)
- ์ ๋ณด๋ฅผ ์ ๊ณตํด์ฃผ๊ธฐ (Retrieval Method)
1. KB-VQA์์ ์ธ๋ถ ์ง์์ โ๋ ธ์ด์ฆโ๊ฐ ๋ ์ ์์
- MLLM์ ์ธ๋ถ ์ง์์ ํ์ฉํด ๋ต์ ์์ฑํ์ง๋ง,
๊ฒ์๋ ์ง์์ด ์ค๋ณต๋๊ฑฐ๋ ๋ถ์ ํํ ๊ฒฝ์ฐ,
์คํ๋ ค ๋ชจ๋ธ์ด ํผ๋์ ๋น ์ง๊ณ ์ค๋ต์ ์์ฑํ ์ ์์ต๋๋ค.
์์:
์ง๋ฌธ: โWhat do they call running around the bases after hitting the ball?โ
๋จ์ ์ง๋ฌธ์ ๋ตํ ๋๋ Stealing์ด๋ผ๊ณ ์๋ชป ๋ตํจ!!
์ธ๋ถ ์ง์์ ๋ฃ์๊ฒฝ์ฐ ๊ฒ์๋ ์ง์์ด ํผ๋์ ์ ๋ฐํด โStealingโ์ด๋ผ๊ณ ์ค๋ต์ ๋. ๊ทธ๋ฐ๋ฐ, ์ค๋ฅธ์ชฝ ์ด๋ฏธ์ง์ฒ๋ผ, MLLM์ด ์์ฒด์ ์ผ๋ก ๊ณ ๋ฏผํด์ ๋ตํ๋ผ๊ณ ํ๋ฉด ๋ชจ๋ธ์ โHome runโ์ ์ ๋ตํด!
2. ๐๏ธ Fine-grained ์๊ฐ ์ ๋ณด ์ฒ๋ฆฌ ๋ฅ๋ ฅ ๋ถ์กฑ
- MLLM์ ๋น์ ์ธ์ฝ๋๋ ์ด๋ฏธ์ง์ ์ธ๋ถ์ ์ธ ํน์ง์ ์ ์ก์๋ด์ง ๋ชปํฉ๋๋ค.
- ์ด๋ก ์ธํด hallucination(์ ๋ ฅ๊ณผ ์๊ด์๋ ์์ ์๋ต) ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค.
์์:
์ด๋ฏธ์ง์ ์ด๋ก๋ถ์ด ์์์๋ ๋ชจ๋ธ์ โStopโ์ด๋ผ๊ณ ์๋ต โ
์ธ๋ฐํ ์๊ฐ ์ธ์ ์คํจ ์ฌ๋ก.
๐ ์ฐ๊ตฌ ์์ฝ
๐ง Knowledge Note ์์ฑ
๊ฒ์๋ ์ธ๋ถ ์ง์๊ณผ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ๋ถํ์ํ๊ฑฐ๋ ์ค๋ณต๋ ์ ๋ณด๋ ์ ๊ฑฐํ๊ณ
์ด๋ฏธ์ง์ ๊ด๋ จ๋ ํต์ฌ ์ง์๋ง ์ ๋ฆฌํ ์์ฝ์ ์์ฑํจ๐๏ธ Visual Note ์์ฑ
์ด๋ฏธ์ง์ knowledge note๋ฅผ ๋ฐํ์ผ๋ก, ์ค์ ์๊ฐ ์ ๋ณด์ ์ง์คํ๋๋ก ์ ๋ํ์ฌ
์ ํํ ์๊ฐ ์ธ์ง ๋ฅ๋ ฅ ๊ฐํ โ hallucination ๋ฌธ์ ์ํ๐ ์ต์ ์ฑ๋ฅ ๋ฌ์ฑ
- OK-VQA ๋ฐ์ดํฐ์ ์์ 5.31% ์ฑ๋ฅ ํฅ์
- A-OKVQA ๋ฐ์ดํฐ์
์์ 3.4% ์ฑ๋ฅ ํฅ์
โ ์คํ์ ํตํด NoteMR์ ํจ๊ณผ์ฑ ์ ์ฆ
๐งช ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก
- 3๋จ๊ณ๋ก ๊ตฌ์ฑ!!
- ํ ์คํธ ๋ ธํธ ๋ง๋ค๊ธฐ,
- ํ ์คํธ ๋ ธํธ๋ฅผ ๋ฐํ์ผ๋ก ๋น์ฃผ์ผ ๋ ธํธ ๋ง๋ค๊ธฐ
- 2๊ฐ์ ๋ ธํธ, ์ด๋ฏธ์ง, ์ง๋ฌธ์ ๋ฃ๊ณ ํ๋ณด๋ค ์์ฑ + ํ๋ณด๋ค ์ค ๋ต ์ ์
1. ํ
์คํธ ๋
ธํธ(N_kl
) ๋ง๋ค๊ธฐ
- ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ธ๋ถ์์๋ ๋ด๋ถ์์๋ ์ง์์ ์ถ์ถํ๋ ค๊ณ ๋ง ํ์ง๋ง
- ์ฌ๊ธฐ์๋ ์ธ๋ถ ๋ด๋ถ๋ฅผ ๊ฒฐํฉํด์
๋ ธํธ๋ฅผ ์์ฑ
ํ๋๊ฒ์ ์ค์ ์ ๋์๋ค!!- ์ธ๋ถ ์ง์์ ๊ฒฝ์ฐ๋ MLLM์ด ๋ด๋ถ ์ง์์ ์ ์ถ์ถํ๋๋ฐ ํ์ฉํ๊ณ , ์ด๋ฅผ ํตํด ๋ด๋ถ์ง์๊ณผ์ ์๋์ง๋ฅผ ์ผ์ผ์ผฐ๋ค.
- ์ธ๋ถ์ง์์ ๊ธฐ์กด์ฐ๊ตฌ๋ค ์ฒ๋ผ Google Search Corpus๋ Wikidata ์ฌ์ฉํ๋ค (์ธ๋ถ์ง์์ด ๊ผญ ํ์ํ OK-VQA๋ A-OKVQA)
- ํ
์คํธ ๋
ธํธ ์ฌ๋ฃ ์ ์ ํ๊ธฐ: tok-K ๋ฐฉ๋ฒ์ ์ฌ์ฉ
Q
(์ฟผ๋ฆฌ์๋ฒ ๋ฉ) ์์ฑ :์ง๋ฌธ ํ ์คํธ์๋ฒ ๋ฉ
๊ณผ์ด๋ฏธ์ง๋ฅผ ๋ฒกํฐํํ์ฌ ํ ์คํธ์๋ฒ ๋ฉ์ผ๋ก ์ ๋ ฌ
ํ๊ฒ์ ํฉ์น๋ค!D
(๋ฌธ์์๋ฒ ๋ฉ) ์์ฑ : Wikidata ๊ฐ์ document๋ฅผ ํ ์คํธ ์๋ฒ ๋ฉํ๋คQ
์D
์ฌ์ด์ ๊ด๋ จ์ฑ์ ์๋ฅผ ๊ตฌํด์, ๊ฐ์ฅ ์ ์๊ฐ ๋์ k ๊ฐ ๋ฌธ์๋ฅผ ๋ฝ๋๋ค!! (์คํ์์๋ Top-k๋ฅผ 5๋กํจ)
์ง์ ๋ ธํธ(N_kl) ์์ฑ
: ์ธ๋ถ ์ง์(P
)๋ก MLLM ๋ด๋ถ ์ง์์ ์ต๋ํ ํ์ฉํ ์ ์๊ฒ ํ๋ค.- ํ
์คํธ์ธ์ฝ๋๋
PreFLMR
์ด๋ฏธ์ง ์ธ์ฝ๋๋CLIP
์ฌ์ฉ!!
2. ๋น์ฃผ์ผ ๋
ธํธ(N_vl
) ๋ง๋ค๊ธฐ
- ์ด๋ฏธ์ง์ ์ค์ํ ํจ์น๋ฅผ ์ ๋ณํ๊ธฐ์ํด์ ํฌ๋ก์ค๋ชจ๋ฌ ๋งคํธ๋ฆญ์ค๋ฅผ ํ์ฉํ๋ค!!
GradCAM
- ์ค๋ณต ์ ๋ณด๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ด๋ฏธ์ง์ ์ง์ค๋ถ์๋ฅผ ์ ์งํ๊ณ , ์ธ์ด๋ชจ๋ธ์ด ์ง๋ฌธ๊ณผ ๊ด๊ณ๋๋๊ณณ์ ์ง์คํ์ฌ ํ ๋ฃจ์๋ด์ด์
์ ๊ฒฝ๊ฐ์์ผฐ๋ค
- ๊ตฌ์ฒด์ ์ผ๋ก๋, ์ค๋ฆฌ์ง๋ ์ด๋ฏธ์ง
V
๋ฅผM
๊ฐ์ ํจ์น๋ก ๋ง๋ค๊ณ , ๊ฐ ํจ์น์ feature๋ฅผ ๊ตฌํ๋ค.- ํจ์น์ฌ์ด์ฆ๋ 16X16 ํจ์น๊ฐ 576๊ฐ์ธ๊ฒ ์ผ๋กํจ
- ์ง์๋
ธํธ
N_kl
์ ํ ํฐํํด์ ๊ฐ๊ฐ์ ํจ์น์ ํ ํฐ๊ฐ์ ๋ฉํฐํค๋ ํฌ๋ก์ค๋ชจ๋ฌ ์ดํ ์ ๊ฐ์ ๊ตฌํ๋ค - ์ด๋์ ๋ฉํฐํค๋ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ!! (i๊ฒ์ ํค๋)
- Q : ์ง์๋
ธํธ
N_kl
- K :
Key weight ํ๋ ฌ
X ์ด๋ฏธ์ง ํจ์น V - V :
value weight ํ๋ ฌ
X ์ด๋ฏธ์ง ํจ์น V
- Q : ์ง์๋
ธํธ
- i ๊ฐ๋ฅผ ๋ชจ๋ ๊ฒฐํฉํด์
H
๋ฅผ ๊ตฌํ๊ณ !! - ์๊ณ๊ฐ
ฮป
๋ฅผ ๋๋ ๋ถ๋ถ๋ง์ ๋จ๊ฒจ์ ๋ง์คํฌ ์์ฑ!! (0.6์ผ๋กํจ) - ์ค๋ฆฌ์ง๋ ์ด๋ฏธ์ง
V
dotMask
ํด์ ์ต์ข ๋น์ฅฌ์ผ ๋ ธํธN_vl
์์ฑ
- ๊ตฌ์ฒด์ ์ผ๋ก๋, ์ค๋ฆฌ์ง๋ ์ด๋ฏธ์ง
- ์ด๋ฏธ์ง ์ธ์ฝ๋๋
BLIP
์ฌ์ฉ!!
3. ์ต์ข ๋ต๋ณ ์ ํ!!
- ์ง๊ธ๊น์ง ์ค๋น๋๊ฒ: ์ง๋ฌธ
q
, ์ค๋ฆฌ์ง๋ ์ด๋ฏธ์งV
, ์ง์ ๋ ธํธN_kl
, ๋น์ฅฌ์ผ ๋ ธํธN_vl
- ์ค๋น๋ ํ๋กฌํฌํธ์ ์ ๋
น์ฌ์ ๋ฃ๋๋ค!!!
- ๊ทธ๋ ๊ฒ
co
๊ฐ์ ํ๋ณด ๋ต๋ณ์ ๋ง๋ ๋ค์!! ๊ทธ์ค์์ ์ ์ผ ์ข์ ๋ต๋ณ์ ๋ฝ๋๋ค!! - ๋ค์ ์คํ๋ถ๋ถ์ ๋ณด๋ฉด ํ๋ณด๋ 3๊ฐ๋กํ์!!
์คํ ๊ฒฐ๊ณผ!!
- OK-VQA ๋ฐ A-OKVQA ๋ชจ๋์์ ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์!!
LLaVa-NeXT-8b
์์ ์ต๊ณ ์ ์ฑ๋ฅ!!- ๋ค๋ฅธ ์ฐ๊ตฌ์์์ 13B ๋ณด๋ค๋ ์ฑ๋ฅ์ด ์ข์๋ค!!
- ๋ชจ๋๋ณ๋ก ๋ณด๊ธฐ! (Ablation Study)
- ์ด๋ฏธ์ง์ 3๋ฒ Table!! 5๋จ๊ณ๋ก ๋๋์๋ค!
- 1๋จ๊ณ: ๊ทธ๋ฅ MLLM๋ง ๊ฐ์ง๊ณ ๋ฌธ์ ํ๊ธฐ
- 2๋จ๊ณ: ๊ฒ์๋ ์ง์ ์ถ๊ฐ
- 3๋จ๊ณ: ์ง์๋ ธํธ๋ก ์ถ๊ฐ
- 4๋จ๊ณ: ์ง์๋ ธํธ + ๋น์ฃผ์ผ๋ ธํธ
- 5๋จ๊ณ: 4๋จ๊ณ๋ก ์ฌ๋ฌ๊ฐํ๋ค ์ ์
- ๋จ๊ณ๋ณ๋ก ๋ชจ๋ ๋ฐ์ ํจ์ ํ์ธํ ์ ์์๋ค!!
โ ๊ฒฐ๋ก
- ๋ ธํธ ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ถ๋ก ๊ณผ์ ์ ๋จ๊ณํํ๊ณ ,
- ๋จ์ ์๋ตํ ๋ชจ๋ธ์์ ์ฌ๊ณ -๊ธฐ๋ฐ reasoning ๋ชจ๋ธ๋ก ๋ฐ์ ๊ฐ๋ฅ
- RAG, AI ํํฐ, ๋ฉํฐํ ์ง์์๋ต ์์คํ ์ ์์ฉ ๊ฐ๋ฅ์ฑ ๋์