๐งฉ AVA-Bench: Vision Foundation Model์ ์์์ ์๊ฐ ๋ฅ๋ ฅ ํ๊ฐํ๊ธฐ (CVPR 2026)
๐งฉ AVA-Bench โ ํต์ฌ ๋ ผ๋ฌธ ๋ฆฌํฌํธ
๋ ผ๋ฌธ: AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
์ ์: Zheda Mai, Arpita Chowdhury et al. (The Ohio State University, Adobe Research, Boston University)
ํํ: CVPR 2026
Project Page : https://zheda-mai.github.io/AVA-Bench/
ํต์ฌ ์์ฝ: ๋ณต์กํ VQA ์ ์๋ง์ผ๋ก๋ Vision Foundation Model(VFM)์ ์ง์ง ๋ฅ๋ ฅ์ ๋ฑ๋ฑ์ด ํํค์น ์ ์๋ค!
14๊ฐ์ง ์์์ ์๊ฐ ๋ฅ๋ ฅ(Atomic Visual Abilities)์ผ๋ก ์์ ํ ๋ถํดํ์ฌ ๋ชจ๋ธ์ ์ง์ง ๊ฐ์ ๊ณผ ์ฝ์ (Ability Fingerprint)์ ํ์ ํ์!
๐งฉ ๋ฌธ์ ์ ์: ๋ชจ๋ธ์ด ์ ํ๋ ธ๋์ง ์ ํํ ์๊ณ ์ถ์ด!!
์ต๊ทผ ์๋ง์ Vision Foundation Model(VFM)๋ค์ด ์์์ ธ ๋์ค๊ณ ์๊ณ , ์ด๋ค์ ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ํด ๋ค์ํ VQA(Visual Question Answering) ๋ฒค์น๋งํฌ๊ฐ ์ฌ์ฉ๋๋ค.
ํ์ง๋ง ๊ธฐ์กด ๋ฒค์น๋งํฌ์๋ ์น๋ช
์ ์ธ ํ๊ณ๊ฐ ์์์ผ๋โฆ
๋ฌธ์ 1 โ ๋ฅ๋ ฅ์ ํผ์ฌ (Skill Confounding)
์ด๋ค VQA ์ง๋ฌธ์ ๋ง์ถ๊ฑฐ๋ ํ๋ ธ์ ๋, ๊ทธ ์์ธ์ด ๊ณต๊ฐ ์ธ์ง๋ ฅ ๋ถ์กฑ ๋๋ฌธ์ธ์ง, ์ฌ๋ฌผ ์ธ์๋ ฅ ๋ถ์กฑ ๋๋ฌธ์ธ์ง, ํน์ ๋ณตํฉ์ ์ธ ๋ ผ๋ฆฌ์ ๊ฒฐํจ ๋๋ฌธ์ธ์ง ์ ํํ ์๊ธฐ ์ด๋ ต๋ค!
๋ฌธ์ 2 โ ๋ฐ์ดํฐ์ ๋ถ์ผ์น (Data Mismatch)
VFM์ ํ๋ํ๋ ๋ฐ ์ฌ์ฉ๋ instruction ๋ฐ์ดํฐ์ ์ ๋ถํฌ์ ํ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ถํฌ๊ฐ ์๋ก ๋งค์นญ๋์ง ์์, ์ฌ๋ฐ๋ฅธ ๋ชจ๋ธ ๋น๊ต ํ๊ฐ๊ฐ ๋ถ๊ฐ๋ฅํ๊ฑฐ๋ ํธํฅ๋ ์ ์๋ค.
๐ง ํด๊ฒฐ์ฑ : 14๊ฐ์ง ์์์ ์๊ฐ ๋ฅ๋ ฅ(AVAs)์ผ๋ก ์ชผ๊ฐ๊ธฐ!
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๊ฑท์ด๋ด๊ณ , ๋ชจ๋ธ์ ๋(Vision)์ ๊ตฌ์ฑํ๋ 14๊ฐ์ง ํต์ฌ โ์์์ ์๊ฐ ๋ฅ๋ ฅ(Atomic Visual Abilities)โ์ ์ ์ํ์ฌ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ง๋จํ๋ค!
โ 14๊ฐ์ง Atomic Visual Abilities (AVAs)
- ๊ธฐํ/๊ณต๊ฐ(Geometric/Spatial): Localization (์์น ์ฐพ๊ธฐ), Spatial Reasoning (๊ณต๊ฐ ์ถ๋ก ), Absolute Depth (์ ๋ ๊น์ด), Relative Depth (์๋ ๊น์ด), Orientation (๋ฐฉํฅ)
- ์ธ์ง/์ธ์(Perceptual/Recognition): Counting (๊ฐ์ ์ธ๊ธฐ), Color (์์), Object (์ฌ๋ฌผ), Texture (์ง๊ฐ), Action (ํ๋), Emotion (๊ฐ์ ), Scene (์ฅ๋ฉด), OCR (ํ ์คํธ ์ธ์ง) ๋ฑ
์ด๋ฅผ 26๊ฐ์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ์์ ํ ์ฝ 218,000๊ฐ์ ์ด๋ฏธ์ง-์ง๋ฌธ ์์ผ๋ก ๊ตฌ์ฑํ์ฌ ๊ผผ๊ผผํ๊ฒ ํ๊ฐํ๋ค!
์ด ๋ฒค์น๋งํฌ๋ฅผ ๋๋ฆฌ๊ณ ๋๋ฉด ๊ฐ VFM ๋ชจ๋ธ๋ง๋ค ๊ณ ์ ์ ๊ฐ์ฝ์ ์ ์๊ฐํํ โAbility Fingerprintโ๋ฅผ ์ป์ ์ ์๋ค!
- DINOv2 ๊ฐ์ ์๊ธฐ์ง๋ํ์ต(Self-Supervised) ๋ชจ๋ธ โก๏ธ ๊น์ด ์ธ์(Depth)์ด๋ ์์น ์ธ์(Geometric) ๊ฐ์ ๊ณต๊ฐ ์ ๋ณด ์ฒ๋ฆฌ์ ์์ฒญ ๋ฐ์ด๋จ!
- SigLIP, AIMv2 ๊ฐ์ ์ธ์ด-์ด๋ฏธ์ง ๋์กฐํ์ต ๋ชจ๋ธ โก๏ธ ์นดํ ๊ณ ๋ฆฌ ๋ถ๋ฅ๋ ํ ์คํธ ์ธ์(OCR) ๋ฑ ์๋ฏธ๋ก ์ ์ธ ์ ๋ฐ์ ์ธ์ง์ ์ฐ์ํจ!
๐ ์ ๋น์ฉ ๊ณ ํจ์จ ํ๊ฐ ํ๋กํ ์ฝ
๊ฑฐ๋ํ ๋ค์ค๋ชจ๋ฌ ๋ชจ๋ธ์ ํ๊ฐํ ๋ ๋ค์ด๊ฐ๋ ์ฐ์ฐ ๋น์ฉ๋ ํฐ ๋ฌธ์ ์ค ํ๋๋ค.
์ด ๋
ผ๋ฌธ์์๋ ํ๊ฐ์ฉ ๋ฉํ ๋ชจ๋ธ๋ก 7B ํฌ๊ธฐ์ ๋ฌด๊ฑฐ์ด LLM ๋์ , 0.5B ์์ค์ ๊ฐ๋ฒผ์ด ์ํ LLM์ ํ์ฉํด๋ ํ๊ฐ ์ ๋ขฐ์ฑ๊ณผ ๋ชจ๋ธ ๋ญํน์ ์ผ์น๋๊ฐ ๊ฑฐ์ ์ ์ง๋จ์ ์
์ฆํ๋ค!
- ํ๊ฐ ์ฐ์ฐ ๋น์ฉ์ ๋ฌด๋ ค 8๋ฐฐ(8x)๋ ์ ๊ฐ!
- ๋ฆฌ์์ค๊ฐ ์ ํ๋ ํ๊ฒฝ์์๋ ๋น ๋ฅด๊ณ ์ ํํ ๋ฒค์น๋งํน์ด ๊ฐ๋ฅํด์ง๋ค!
๐ง ๋์ ์ฝ๋ฉํธ!
์ด๋ค ์ธ๊ณต์ง๋ฅ์ด โ๋ ์ข์ ๋ชจ๋ธ์ธ๊ฐโ๋ผ๋ ๋จ์ํ ์ค์ธ์ฐ๊ธฐ์ ํ๊ฐ๋ฅผ ๋์ด, โ๋ด ์๋น์ค/ํ๋ก์ ํธ์ ๋ฑ ๋ง๋ VFM์ ๋ฌด์์ธ๊ฐโ๋ฅผ ๊ฒฐ์ ํ ์ ์๋ ํ๋ฅญํ ์ง๋จ ๋๊ตฌ ์ฒด๊ณ๋ผ๊ณ ๋๊ปด์ก๋ค!
๋ก๋ณดํฑ์ค๋ ์์จ์ฃผํ์ฒ๋ผ ๊ณต๊ฐ ์ธ์ง๊ฐ ์ค์ํ ๋๋ Spatial/Depth์ ๊ฐํ ๋ชจ๋ธ(์: DINOv2 ๊ธฐ๋ฐ)์, ์ด์ปค๋จธ์ค๋ ์ฝํ ์ธ ๋ถ๋ฅ์ฒ๋ผ ์ฌ๋ฌผ ์ ๋ณด ์๋ณ์ด ์ค์ํ ๋๋ General Recognition์ ๊ฐํ ๋ชจ๋ธ(์: SigLIP ๊ณ์ด)์ ์ ํํ๋ ์์ ์ค๋ฌด์ ์ธ ์์ฌ๊ฒฐ์ ํ๋ ์์ ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ํ, ํ๊ฐ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ 0.5B๋ก ์ค์ฌ 8x ํจ์จํ๋ฅผ ์ด๋ฃฌ ํํธ๋ ๋ฒค์น๋งํฌ ์์ฒด์ ์ค์ฉ์ฑ๋ ๊ทน๋ํํ์ฌ ํ๊ณ๋ฅผ ๋์ด ์ฐ์ ๊ณ์์๋ ์๊ธดํ๊ฒ ์ฐ์ผ ์ ์์ ๊ฒ ๊ฐ์ ๋งค์ฐ ์ธ์ ๊น์๋ค!