๐ผ๏ธ Qwen2.5-VL: Next-Gen Vision-Language Model with Dynamic Resolution & Long Video Understanding
๐ผ๏ธ Qwen2.5-VL: Next-Gen Vision-Language Model with Dynamic Resolution & Long Video Understanding
๐ผ๏ธ (ํ๊ตญ์ด) Qwen2.5-VL: ๋ค์ด๋๋ฏน ํด์๋์ ์ด์ฅ๊ธฐ ๋น๋์ค ์ดํด๊น์ง!
- ์ ๋ชฉ: Qwen2.5-VL Technical Report
- ํํ: arXiv (2025๋ 2์, Alibaba Qwen Team)
- ์ฝ๋/์ฒดํฌํฌ์ธํธ: GitHub โ Qwen2.5-VL
- ํต์ฌ ํค์๋:
Vision-Language Model
,Dynamic Resolution
,Long-Video
,Document Parsing
,Grounding
,Agent
- ์์ฝ: Qwen2.5-VL์ Qwen ์๋ฆฌ์ฆ์ ์ฐจ์ธ๋ VLM์ผ๋ก, ์ ๋ฐํ ๊ฐ์ฒด ์ธ์ยท์์น์ถ์ , ๊ฐ๋ ฅํ ๋ฌธ์/์ฐจํธ ํ์ฑ, ์ ์๊ฐ์ง๋ฆฌ ๋น๋์ค ์ดํด๋ฅผ ํ์ต ํจ์จ์ฑ ๊ฐ์ ๊ณผ ํจ๊ป ๋ฌ์ฑํ ๋ชจ๋ธ. GPT-4o, Claude 3.5 Sonnet์ ๋ง๋จน๋ SOTA ์ฑ๋ฅ์ ์คํ์์ค๋ก ๊ณต๊ฐ! :contentReference[oaicite:0]{index=0}
๐ Qwen2.5-VL ํต์ฌ ์์ฝ
ํ ์ค ์์ฝ: โ์ด๋ฏธ์งยท๋ฌธ์ยท๋น๋์คยท์์ด์ ํธ๊น์ง, ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ ๊ฒ์ ์ฒ๋ฆฌํ๋ ๋ฒ์ฉ VLM!โ
1) ์ ๋ฐ ๊ฐ์ฒด ์์น ์ง์ (Grounding)
- ๋ฐ์ด๋ฉ ๋ฐ์ค / ํฌ์ธํธ ๋จ์ ์ธ์
- JSON, ์ ๋ ์ขํ ๊ธฐ๋ฐ ํฌ๋งท ์ง์ โ ์ ๋ฐ ๊ณต๊ฐ ์ถ๋ก ๊ฐ๋ฅ:contentReference[oaicite:1]{index=1}
2) ๋ฌธ์ ํ์ฑ (Omni-Parsing)
- OCR๋ฅผ ๋์ด ๋ค๊ตญ์ด + ์์ + ํํ์ + ์์ ์ ๋ณด๊น์ง ํตํฉ ์ฒ๋ฆฌ
- HTML ๊ธฐ๋ฐ ๋ ์ด์์ ํ์ต์ผ๋ก ๋ฌธ์ ์ ์ฒด ๊ตฌ์กฐ ์ดํด:contentReference[oaicite:2]{index=2}
3) ์ด์ฅ๊ธฐ ๋น๋์ค ์ดํด
- Dynamic FPS Sampling + Absolute Time Encoding (MRoPE)
- ์ ์๊ฐ์ง๋ฆฌ ๋น๋์ค์์ ์ด ๋จ์ ์ด๋ฒคํธ ์ถ์ถ ๊ฐ๋ฅ:contentReference[oaicite:3]{index=3}
4) Agent ๊ธฐ๋ฅ ๊ฐํ
- PCยท๋ชจ๋ฐ์ผ UI grounding ๋ฐ ์กฐ์ ์ํ
- ๋ค์ค step reasoning + function call ๊ธฐ๋ฐ ์ค์ธ๊ณ task ์ฒ๋ฆฌ:contentReference[oaicite:4]{index=4}
๐ ๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ์ Qwen2.5-VL์ ์ฐจ๋ณ์
- ๊ธฐ์กด VLM: ํด์๋ ์ ์ฝ, ๊ธด ๋น๋์ค ํ๊ณ, ๋ฌธ์ ํ์ฑ ๋ถ์ ์
- Qwen2.5-VL:
- ์๋์ฐ ์ดํ ์ ViT โ ํด์๋ ์ ์งํ๋ฉฐ ์ฐ์ฐ ๋น์ฉ ์ ๊ฐ
- Native Dynamic Resolution โ ์ ๋ ฅ ํฌ๊ธฐ ๊ทธ๋๋ก ์ฒ๋ฆฌ
- Absolute Time Encoding โ FPS ์๊ด์์ด ์ผ์ ํ ์๊ฐ ์ดํด
- 4.1T ํ ํฐ ํ๋ฆฌํธ๋ ์ด๋ โ ๋ฌธ์ยท๋น๋์คยทOCRยท์์ด์ ํธ ๋ฐ์ดํฐ ๋ชจ๋ ํฌํจ:contentReference[oaicite:5]{index=5}
๐งฑ Qwen2.5-VL ๊ตฌ์กฐ (Architecture)
1) Vision Encoder (ViT ๊ฐ์ ํ)
- Window Attention + 2D/3D RoPE
- ์๋ณธ ํด์๋ ์ ์ง + ์์ ์ฐ์ ํ๋ ์ grouping:contentReference[oaicite:6]{index=6}
2) MLP-based Vision-Language Merger
- ํจ์น feature ๊ทธ๋ฃนํ โ ํจ์จ์ LLM ์ ๋ ฅ:contentReference[oaicite:7]{index=7}
3) Qwen2.5 LM Decoder
- Qwen2.5 LLM ๊ธฐ๋ฐ
- Multimodal Rotary Position Embedding (MRoPE) โ ์ ๋ ์๊ฐ ์ ๋ ฌ:contentReference[oaicite:8]{index=8}
๐งช ์คํ ๊ฒฐ๊ณผ
๐ฏ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ
- MMBench-EN: 88.6 (InternVL2.5, Claude-3.5 Sonnet ๋ฅ๊ฐ)
- MMStar: 70.8 (์ต๊ณ ์ฑ๋ฅ)
- RealWorldQA: 78.7 (ํ์ค ์๋๋ฆฌ์ค ์ ์ ์ฐ์):contentReference[oaicite:9]{index=9}
๐ฏ OCR / ๋ฌธ์ ์ดํด
- CC-OCR, OmniDocBench: SOTA ๋ฌ์ฑ
- OCRBench_v2: Gemini 1.5 Pro ๋๋น +9.6%(EN), +20.6%(ZH):contentReference[oaicite:10]{index=10}
๐ฏ Grounding
- RefCOCO/+/g ์ ๋ถ์์ GroundingDINO์ ๊ทผ์ ํ ์ฑ๋ฅ
- ODinW-13 (open-vocab detection): 43.1 mAP
- CountBench: 93.6 (ํ์งโ์นด์ดํธ ๋ฐฉ์):contentReference[oaicite:11]{index=11}
๐ฏ ๋น๋์ค ์ดํด
- Charades-STA: mIoU 50.9 (GPT-4o ๋ฅ๊ฐ)
- LVBench, MLVU: ์ฅ๊ธฐ ๋น๋์ค QA์์ ์ต๊ณ ์ฑ๋ฅ:contentReference[oaicite:12]{index=12}
๐ฏ Agent
- ScreenSpot Pro: 43.6 (Qwen2-VL์ 1.6 โ ๋ํญ ํฅ์)
- Android Control, MobileMiniWob++: GPT-4o, Gemini 2.0 ๋ฅ๊ฐ:contentReference[oaicite:13]{index=13}
๐ ์ ์ฑ ๋น๊ต
- ๋ฌธ์: ๋จ์ ํ ์คํธ ์ถ์ถ์ด ์๋๋ผ ๋ ์ด์์, ํ, ์ฐจํธ, ์์๊น์ง ๊ตฌ์กฐ์ ์ผ๋ก ํ์ฑ
- ๋น๋์ค: ์ ๋ ์๊ฐ ๊ธฐ๋ฐ ์ด๋ฒคํธ grounding โ โ์ธ์ ๋ฌด์์ด ์ผ์ด๋ฌ๋์งโ ์ค๋ช ๊ฐ๋ฅ
- Agent: ์ค์ ๊ธฐ๊ธฐ UI grounding + reasoning โ ์๋ํ๋ ์กฐ์ ๊ฐ๋ฅ
๐งช Ablation ๋ถ์
- Absolute Time Encoding ์์ ๋ โ ๋น๋์ค ์ด๋ฒคํธ ์ ๋ ฌ ์ฑ๋ฅ ๊ธ๋ฝ
- Window Attention ์์ ๋ โ ์ฐ์ฐ๋ ์ฆ๊ฐ + ์๋ ์ ํ
- Dynamic Resolution ์ ๊ฑฐ ์ โ ๋ค์ํ ์ ๋ ฅ ํด์๋์์ ์ฑ๋ฅ ๋ถ์์ :contentReference[oaicite:14]{index=14}
โ ๊ฒฐ๋ก
- Qwen2.5-VL์ ๋ฉํฐ๋ชจ๋ฌ ์ฌ์ธ์ ๋ชจ๋ธ๋ก,
- ์ด๋ฏธ์งยท๋ฌธ์ยท๋น๋์คยท์์ด์ ํธ๊น์ง ์ ์์ญ ์ฒ๋ฆฌ
- GPT-4o, Claude 3.5์ ๊ฒฝ์ํ๋ ์คํ์์ค VLM
- ์ฃผ์ ๊ธฐ์ฌ:
- Window Attention ViT
- Dynamic Resolution + Absolute Time Encoding
- Document Omni-Parsing
- Long-Video + Agent ์ง์
- โ ์ฐจ์ธ๋ ๋ฉํฐ๋ชจ๋ฌ AI ํ์ค์ผ๋ก ์๋ฆฌ๋งค๊น! ๐
This post is licensed under CC BY 4.0 by the author.