๐ Visual Attention Sink & VAR ๋ ผ๋ฌธ ๊ณต๋ถ (ICLR 2025)
๐ SEE WHAT YOU ARE TOLD โ Visual Attention Sink in LMMs
๋ ผ๋ฌธ: SEE WHAT YOU ARE TOLD: VISUAL ATTENTION SINK IN LARGE MULTIMODAL MODELS
์ ์: Seil Kang, Jinyeong Kim, Junhyeok Kim, Seong Jae Hwang
ํํ: ICLR 2025
ํค์๋: Visual Attention Sink, LMM, LLaVA, VAR (Visual Attention Redistribution)
ํ ์ค ์์ฝ:
LMM์ ์ด๋ฏธ์ง๋ฅผ โ์ ๋๋ก ๋ณด์งโ ๋ชปํ๊ณ , ์ด๋ฏธ์ง ์์ ์ฐ๋ ๊ธฐํต ํ ํฐ(visual sink) ์ ์๋ฏธ ์์ด attention ์ ์๋๋ค.
์ด ํ ํฐ๋ค์ ๋ถ์ํด์ ์ธ๋ชจ์๋ attention์ ๊ฑท์ด๋ค๊ฐ ์ง์ง ์ค์ํ ์ด๋ฏธ์ง ํจ์น์ ์ฌ๋ถ๋ฐฐํด ์ฃผ๋ฉด,
์ถ๊ฐ ํ์ต ์์ด๋ ๋ค์ํ ๋น์ -์ธ์ด ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ด ์ค๋ฅธ๋ค!
๐งฉ ๋ฌธ์ ์ ์: LMM, ์ ๋ง ์ด๋ฏธ์ง๋ฅผ ์ ๋ณด๊ณ ์๋?
LLaVA, Qwen2-VL, InternVL ๊ฐ์ Large Multimodal Models(LMMs)๋
์ด๋ฏธ์ง ์ธ์ฝ๋ + LLM ๋์ฝ๋ ๊ตฌ์กฐ๋ก ๋์ํ๋ค.
ํ
์คํธ ํ ํฐ์ด ์๊ฐ ์ ๋ณด๋ฅผ ์ฝ์ด์ฌ ๋ ์ฌ์ฉํ๋ ํต๋ก๊ฐ ๋ฐ๋ก TextโImage Attention.
์ด๋ก ์ ์ผ๋ก๋:
"bird"ํ ํฐ โ ์๊ฐ ์๋ ํจ์น์๋ง ๊ฐํ๊ฒ attention
์ด์ด์ผ ํ์ง๋ง, ๋ ผ๋ฌธ์์ LLaVA-1.5-7B์ attention map ์ ์๊ฐํํด ๋ณด๋
"bird","banana","knife"๋ฑ ์ด๋ค ํ ์คํธ ํ ํฐ์ด๋ ์๊ด์์ด- ํญ์ ๊ฐ์ ๋ช ๊ฐ์ ์ด๋ฏธ์ง ํ ํฐ(ํจ์น)์ ๋์ attention
- ์ฌ์ง์ด ๊ทธ ํจ์น๋ค์ ์ง๋ฌธ๊ณผ ์ ํ ์๊ด์๋ ๋ฐฐ๊ฒฝ ์์ญ
์ฆ,
LMM๋ ์ธ์ด ๋ชจ๋ธ์ฒ๋ผ โํน์ ํ ํฐ์ attention์ ๋ฒ๋ฆฌ๋โ ํ์์ ๊ฐ์ง๋ค.
๋ค๋ง ์ด๋ฒ์๋ ์ธ์ด๊ฐ ์๋๋ผ ์ด๋ฏธ์ง ํ ํฐ ์ชฝ์ ์๊ธด sink๋ผ๋ ์ ์ด ํฌ์ธํธ!!
๋ ผ๋ฌธ์ ์ด ํ์์ Visual Attention Sink๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๐ ํต์ฌ ๊ด์ฐฐ 1: Visual Sink Token์ ์ ์ฒด
๋ ผ๋ฌธ์ ์ฒซ ๋ฒ์งธ ํต์ฌ ๊ธฐ์ฌ๋
โ์ด ์ด์ํ ํ ํฐ๋ค์ด ๋๋์ฒด ๋ญ๋?โ ๋ฅผ
hidden state level์์ ํด๋ถํ ๊ฒ.
1) Massive Activation in Sink Dimensions
์ธ์ด ๋ชจ๋ธ์์ ์๋ ค์ง ํ์:
- BOS,
.,\n๋ฑ ์๋ฏธ๊ฐ ๊ฑฐ์ ์๋ ํ ํฐ์ ๋ํด - ํน์ hidden ์ฐจ์๋ค๋ง ๋น์ ์์ ์ผ๋ก ํฐ ๊ฐ(โmassive activationโ) ์ ๊ฐ๋๋ค.
- ์ด ์ฐจ์ index ์งํฉ์ ( D_{sink} )๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์ ์๋ค์ LLaVA-1.5-7B, LLaVA-1.5-13B, Qwen2-VL-7B, InternVL2-8B ๋ฑ ์ฌ๋ฌ LMM์์
- ์ด๋ฏธ์ง ํ ํฐ ์ค ์ผ๋ถ๊ฐ BOS์ ๋์ผํ sink dimension์์ massive activation ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌ.
- ์ฆ, โ์๊ฐ์ sink ํ ํฐโ๋ ์ธ์ด sink ํ ํฐ๊ณผ ๋๊ฐ์ ํจํด์ ๊ฐ์ง๋ค (๋ ผ๋ฌธ Fig.2, Fig.7).
๊ทธ๋์ Visual Sink Token์ ๋ค์์ฒ๋ผ ์ ์:
- hidden state ( x )์์
- sink dimension value ( \phi(x) )๊ฐ threshold ( \tau ) ์ด์์ธ ํ ํฐ
โ sink token ์ผ๋ก ๋ถ๋ฅ (๋ ผ๋ฌธ์์๋ ( \tau = 20 ) ์ฌ์ฉ)
2) Background์ ๋ชฐ๋ ค ์๋ ํ ํฐ๋ค
Segmentation ๋ฐ์ดํฐ์ (PASCAL VOC, COCO) ์์์ ์์น๋ฅผ ๋น๊ตํด๋ณด๋ฉด (Table 6):
- Visual Sink Token์ 90% ์ด์์ด
๊ฐ์ฒด๊ฐ ์๋ ๋ฐฐ๊ฒฝ ์์ญ์ ์์น - ์๋ฏธ ์๋ ๊ฐ์ฒด์ ๊ด๋ จ๋ ํ ํฐ๋ค์ ๋๋ถ๋ถ non-sink
โ ViT์์์ โbackground sink / registerโ ํ์๊ณผ ์์ ํ ํํํ ๊ทธ๋ฆผ.
๐ง ํต์ฌ ๊ด์ฐฐ 2: Sink Token์ โ๊ฑฐ์ ์๋ฌด๊ฒ๋ ํ์ง ์๋๋คโ
โattention ์ ๋์๋ฐ, ์ง์ง๋ก ์ ์ฉํ๊ฐ?โ๋ฅผ ํ์ธํ๊ธฐ ์ํด ๋ ๊ฐ์ง ์คํ์ ํ๋ค.
1) Token Masking ์คํ (Attention Knockout)
- Visual Sink Token โ Text๋ก ๊ฐ๋ attention์ ์์ ํ ์ฐจ๋จ
(ํด๋น ํ ํฐ์์ ํ ์คํธ ํ ํฐ์ผ๋ก์ ฮฑ๋ฅผ 0์ผ๋ก ๋ง๋๋ ๋ฐฉ์) - ๋น๊ต๊ตฐ: ๊ฐ์ ๊ฐ์์ ์ด๋ฏธ์ง ํ ํฐ์ ๋๋ค์ผ๋ก ๋ง์คํน
๊ฒฐ๊ณผ (Fig.3(b)):
- Sink Token ๋ง์คํน โ ์ฑ๋ฅ ๊ฑฐ์ ๋ณํ ์์
- ๋๋ค ํ ํฐ ๋ง์คํน โ ์ฑ๋ฅ ๋ ๋จ์ด์ง
โ Sink Token์ attention์ ๋ง์ด ๋ฐ์ง๋ง, ์ ๋ณด ๊ธฐ์ฌ๋๋ ๊ฑฐ์ 0.
2) Residual Stream Contribution ๋ถ์
๊ฐ visual token์ด residual stream์ ์ฃผ๋ ๊ธฐ์ฌ๋์
[ |\alpha_{i,j} \, x_j W_{OV}| ]
์ผ๋ก ์ ์ํ๊ณ , sink vs non-sink ํ๊ท ๊ฐ์ ๋น๊ต (Fig.3(c)):
- Visual Sink Token์ residual contribution์
๋ค๋ฅธ ํ ํฐ๋ค์ ๋นํด ํจ์ฌ ์๋ค.
์ฆ,
Visual Attention Sink = โ์ด๋ฏธ์ง ๋ฒํผ/์ฐ๋ ๊ธฐํต ์ญํ ์ ํ๋ ํ ํฐ๋คโ
์ ๋ณด๋ ์๋๋ฐ attention๊ณผ hidden activation๋ง ํฌ๋ค.
๐ก ์์ด๋์ด: ์ธ๋ชจ์๋ Attention, ์์ฐ์ผ๋ก ์ฌํ์ฉํ์
์ฌ๊ธฐ๊น์ง์ ๊ด์ฐฐ์ ํ ์ค๋ก ์ ๋ฆฌํ๋ฉด:
โ์๊ฐ์ sink ํ ํฐ์ ์์์ง๋ attention์ ๊ฑฐ์ ๋ญ๋น๋ค.โ
๋์์, ๋ค๋ฅธ ์ฐ๊ตฌ๋ค(Chen 2024, Liu 2024 ๋ฑ)์์๋
- LMM์ด ํ ์คํธ์ ๋นํด ์ด๋ฏธ์ง์ ๋๋ฌด ์ ์ attention์ ์ฃผ๊ณ
- ๊ทธ ๊ฒฐ๊ณผ object hallucination, spatial reasoning ์คํจ ๋ฑ์ด ๋ฐ์ํ๋ค๊ณ ๋ณด๊ณ ํ๋ค.
๊ทธ๋์ ๋ ผ๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ด ์๊ฐํ๋ค:
โSink ํ ํฐ์ผ๋ก ํ๋ฌ๊ฐ๋ attention์ ๊ฑท์ด๋ค๊ฐ
์ง์ง ์ด๋ฏธ์ง ์ ๋ณด(visual non-sink)์ ๋ค์ ๋ฟ๋ฆฌ๋ฉด ์ด๋จ๊น?โ
๊ทธ๋ฆฌ๊ณ ์ด ์์ด๋์ด๋ฅผ ๊ตฌ์ฒดํํ ๊ฒ์ด ๋ฐ๋ก
VAR: Visual Attention Redistribution
๐ ๋ฐฉ๋ฒ: VAR (Visual Attention Redistribution)
VAR๋ ์์ ํ training-freeํ ๋ฐฉ๋ฒ์ด๋ค.
- ์ด๋ฏธ์ง์ ์ง์คํ๋ head(์ด๋ฏธ์ง-์ค์ฌ head, Image-Centric Head)๋ฅผ ์ ํํ๊ณ
- ๊ทธ head์์๋ง attention์ ์ฌ๋ถ๋ฐฐํ๋ค.
1๋จ๊ณ: Image-Centric Head ์ ํ
๋ชจ๋ head์ ์๋๋ฉด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊นจ๋ฒ๋ฆด ์ ์์ผ๋,
โ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์ ๋ณด๊ณ ์๋ head๋ง ๊ณจ๋ผ์ ์์ โ ํ๋ ๊ฒ ์ค์ํ๋ค.
๋ ผ๋ฌธ์ Visual Non-Sink Ratio๋ผ๋ ์งํ๋ฅผ ์ ์ํ๋ค (Eq.3):
[ r_{i}^{\ell,h} = \frac{\sum_{j \in I_{vis} \setminus I^{\ell}{q,vis}} \alpha{i,j}^{\ell,h}} {\sum_{j \in I_{vis}} \alpha_{i,j}^{\ell,h}} ]
- ๋ถ์: visual non-sink ํ ํฐ์ ๊ฐ๋ attention ํฉ
- ๋ถ๋ชจ: ์ ์ฒด visual ํ ํฐ(attention to all visual) ํฉ
์ด ๋น์จ์ด ๋์ head์ผ์๋ก
โsink garbage ๋ง๊ณ ์ค์ ์ด๋ฏธ์ง ํจ์น์ ๋ ์ง์คํ๋ headโ
๋ผ๊ณ ๋ณผ ์ ์๋ค. ๋ ผ๋ฌธ Fig.4๋ฅผ ๋ณด๋ฉด:
- non-sink ratio๊ฐ ๋์ head โ ์ง๋ฌธ๊ณผ ๊ด๋ จ๋ ๊ฐ์ฒด ๋ถ๋ถ์ ์ง์ค
- ratio๊ฐ ๋ฎ์ head โ ์ด๋ฏธ์ง ์ ๋ฐ์ ํ๋ฆฌ๊ฒ ๋ฟ๋ ค์ง attention
๊ทธ๋์
- ( r_{i}^{\ell,h} \ge \rho ) ์ธ head๋ฅผ
Image-Centric Head (ICH) ๋ก ์ ํ (hyperparam ( \rho ))
2๋จ๊ณ: Sink โ Non-Sink๋ก Attention ์ฌ๋ถ๋ฐฐ
์ ํ๋ ICH์ ํํด์๋ง, ๊ฐ text token i์ ๋ํด:
sink token๋ค์ ๊ฐ๋ attention ์ค ์ผ๋ถ ๋น์จ p๋ฅผ ๊ฑท์ด์
attention budget (\Omega) ๋ก ๋ชจ์๋ค.- sink ์ชฝ: (\alpha_{i,j}^{q} = (1-p)\alpha_{i,j})
- budget: (\Omega = p \sum_{j \in I_q} \alpha_{i,j})
์ด budget์ visual non-sink ํ ํฐ๋ค์ ๋น๋กํด์ ์ฌ๋ถ๋ฐฐ (Eq.4):
[ \alpha^{q}{i,j} = \alpha{i,j} + \Omega \cdot \frac{\alpha_{i,j}}{\sum_{k \in I_{vis} \setminus I_{q,vis}} \alpha_{i,k}} \quad (j \in I_{vis} \setminus I_{q,vis}) ]
์ ์ฒด attention ํฉ์ ์ฌ์ ํ 1๋ก ์ ์ง๋จ
โ ํ๋ฅ ๋ถํฌ ์ฑ์ง์ ๋ณด์กด
์ด ๊ณผ์ ์ ๋ชจ๋ ํ ์คํธ ํ ํฐ(์ง๋ฌธ, ์์คํ ํ๋กฌํํธ, ์์ฑ๋ ๋ต๋ณ ํ ํฐ)์ ์ ์ฉํ๋,
- ๋ง์ง๋ง ๋ ์ด์ด๋ ๊ฑด๋๋ฆฌ์ง ์๋๋ค (๋ง์ง๋ง ๋ ์ด์ด๋ ํน์ํ ์ญํ ์ ๊ฐ์ง๋ค๋ ์ ํ์ฐ๊ตฌ๋ฅผ ๋ฐ๋ฆ).
๐ ์คํ ๊ฒฐ๊ณผ: โ์ด๋ฏธ์ง๋ง ๋ ์ ๋ดค์ ๋ฟ์ธ๋ฐโฆโ
๋ ผ๋ฌธ์ LLaVA-1.5, VILA, Qwen2-VL, InternVL2 ๋ฑ ๋ค์ํ LMM์ VAR๋ฅผ ๋ถ์ฌ์ ํ๊ฐํ๋ค.
1) General Vision-Language Benchmarks (Table 1)
์: LLaVA-1.5-7B
- VQAv2: 78.5 โ 78.6
- GQA: 62.0 โ 63.5
- VizWiz: 50.0 โ 53.7
- MM-Vet: 31.1 โ 33.7
์ฌ๋ฐ๋ ํฌ์ธํธ:
LLaVA-1.5-7B + VAR ๊ฐ
๋ฒ ์ด์ค LLaVA-1.5-13B๋ฅผ ์ผ๋ถ ๋ฒค์น๋งํฌ์์ ์ด๊น
โ โ๋ชจ๋ธ ํฌ๊ธฐโ ๋์ โ๋ด๋ถ attention ์กฐ์ โ๋ง์ผ๋ก๋ ๊ฝค ํฐ ์ด๋์ ์ป์ ์ ์๋ค๋ ์์ฌ์ .
2) Hallucination Benchmark (Table 2)
CHAIR, POPE, MMHal-Bench ํ๊ฐ์์
- Hallucination ๊ด๋ จ ์งํโ
- ์ ํ๋/์ ๋ขฐ๋ ๊ด๋ จ ์งํโ
โ โ์ด๋ฏธ์ง๋ฅผ ๋ ์ ๋ณด๋ ๊ฒ๋ง์ผ๋ก๋ ํ๊ฒ์ ๋ ๋ณธ๋คโ ๋ฅผ ์ ๋์ ์ผ๋ก ๋ณด์ฌ์ค.
3) Vision-Centric Benchmark (Table 3)
- MMVP, CV-Bench 2D/3D ๊ฐ์ ๊ณต๊ฐ ์ดํดยท3D ๊ด๊ณ ์ค์ฌ ๋ฒค์น์์๋
์ผ๊ด๋ ๊ฐ์ .
๐ฌ Ablation: ์ โ์ด๋ฏธ์ง ํ ํฐ๋งโ ์๋์ผ ํ ๊น?
๋ ผ๋ฌธ์์๋ ๋ค์ํ ablation๋ ํด๋ณธ๋ค:
๋ชจ๋ head์ VAR ์ ์ฉ
โ ์์ ๋ชจ๋ธ์ด ๋ง๊ฐ์ ธ์ ์ ์ 0 (Table 4์w/o Head selection)
โ head selection(ICH๋ง ์์ )์ด ํ์Attention budget์
- Text + Visual ๋ชจ๋์ ์ฌ๋ถ๋ฐฐ
- Text์๋ง ์ฌ๋ถ๋ฐฐ
- Visual์๋ง ์ฌ๋ถ๋ฐฐ(๋ณธ ๋ฐฉ๋ฒ)
๊ฒฐ๊ณผ (Table 5):
- Text-only: ์คํ๋ ค ์ฑ๋ฅ ์ ํ
- Text+Visual: ์ฝ๊ฐ ์ด๋
- Visual-only(๋ณธ ๋ฐฉ๋ฒ)๊ฐ ๊ฐ์ฅ ํฌ๊ณ ์์ ์ ์ธ ์ด๋
โ LMM์ ์ด๋ฏธ ํ ์คํธ์๋ ์ถฉ๋ถํ ์ง์คํ๊ณ ์์๊ณ ,
์ง์ง ๋ถ์กฑํ๋ ๊ฑด ์ด๋ฏธ์ง ์ชฝ attention์ด๋ผ๋ ์๋ฏธ.
๐ง ๋์ ์ฝ๋ฉํธ!
์ด ๋ ผ๋ฌธ์ StreamingLLM์ Attention Sink์ ์ฐ๊ฒฐํด์ ๋ณด๋ฉด ์ง์ง ์ฌ๋ฏธ์๋ค.
- StreamingLLM:
- โ์ด๊ธฐ ๋ช ํ ํฐ์ด ์ฌ์ค์ attention sink/๋ ์ง์คํฐ ์ญํ ์ ํ๋ค.
โ ๊ทธ ํ ํฐ๋ค๋ง ์ ์งํด๋ ๋ฌดํ ์คํธ๋ฆฌ๋ฐ ๊ฐ๋ฅโ
- โ์ด๊ธฐ ๋ช ํ ํฐ์ด ์ฌ์ค์ attention sink/๋ ์ง์คํฐ ์ญํ ์ ํ๋ค.
- ์ด๋ฒ Visual Attention Sink ๋
ผ๋ฌธ:
- โ์ด๋ฏธ์ง์์๋ ๋น์๋ฏธ์ ์ธ sink ํจ์น๊ฐ ์กด์ฌํ๋ค.
โ ์ฌ๊ธฐ์ ์์์ง๋ attention์ ํ์ํ๋ฉด ์ด๋ฏธ์ง ์ดํด๊ฐ ์ข์์ง๋ค.โ
- โ์ด๋ฏธ์ง์์๋ ๋น์๋ฏธ์ ์ธ sink ํจ์น๊ฐ ์กด์ฌํ๋ค.
๋์ ๊ณตํต์ :
๋ชจ๋ธ์ ์ธ์ด๋ ๋น์ ์ด๋ ๋ด๋ถ ๊ณ์ฐ์ ์ํ โ์ฐ๋ ๊ธฐํต/๋ ์ง์คํฐ ๊ณต๊ฐโ์ ์๋ฐ์ ์ผ๋ก ๋ง๋ค์ด ์ด๋ค.
์ด๊ฒ ํ์ต์ ๋ถ์ฐ๋ฌผ์ฒ๋ผ ์๊ฒผ๋๋ฐ,
๋์ค์ ํด์ ๊ด์ ์์ ๋ณด๋ฉด ๊ฝค ์ผ๊ด๋ ๊ตฌ์กฐ์ ํจํด์ด๋ผ๋ ์ ์ด ํฅ๋ฏธ๋กญ๋ค.
๋ ํ๋์ ์ธ์ฌ์ดํธ:
- ViT์ register token (Darcet 2023)
- ์ธ์ด LLM์ attention sink token
- LMM์ visual attention sink token
์ด ์ธ ๊ฐ์ง๊ฐ โ๋ชจ๋ธ ์์์ ์ ๋ณด๋ฅผ ์ ์ฅยท๊ณ ์ ํ๋ ์ญํ โ์ด๋ผ๋
ํ๋์ ํฐ ํจํด ์์ ๋์ฌ ์๋ค๋ ๋๋์ ์ค๋ค.
์์ผ๋ก๋ โ์ด sink/๋ ์ง์คํฐ ๊ณต๊ฐ์ ์ด๋ป๊ฒ ์ค๊ณยท์ ์ดํ๋๋โ๊ฐ
๋จ์ ํจ์จ์ ๋์ด์ ํด์ ๊ฐ๋ฅํ ์ ์ด(steering) ์ ํต์ฌ ์ถ์ด ๋ ์๋ ์์ ๊ฒ ๊ฐ๋ค.
โ ์ ๋ฆฌ
- LMM์ ์ด๋ฏธ์ง ์์ ์๋ฏธ ์๋ ํจ์น(visual sink)์
๊ณผ๋ํ attention์ ์ฃผ๋ ๊ฒฝํฅ์ด ์๋ค. - ์ด ํ ํฐ๋ค์ ์ธ์ด ๋ชจ๋ธ์ BOS sink์ ๊ฐ์ด
ํน์ hidden dimension์์ massive activation์ ๋ณด์ด๋ฉฐ, ์ค์ ์์ธก์๋ ๊ฑฐ์ ๊ธฐ์ฌํ์ง ์๋๋ค. - ๋ ผ๋ฌธ์ ์ด ๋ญ๋น๋๋ attention์ attention budget์ผ๋ก ๋ณด๊ณ , ์ด๋ฏธ์ง-์ค์ฌ head์์๋ง visual non-sink ํ ํฐ์ผ๋ก ์ฌ๋ถ๋ฐฐ(VAR) ํ์๊ณ ์ ์ํ๋ค.
- ์ถ๊ฐ ํ์ต ์์ด๋
- ์ผ๋ฐ VL ๋ฒค์น๋งํฌ
- hallucination ๊ฐ์
- vision-centric tasks
๋ชจ๋์์ ์์ ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.
ํ์ํ๋ค๋ฉด ๋ค์ ํฌ์คํธ๋ก
- VAR ์์/์๊ณ ๋ฆฌ์ฆ์ ์ฝ๋ ์์ค์ผ๋ก ํ์ด ์ฐ๊ธฐ (PyTorch pseudo-code)
- StreamingLLM์ attention sink์ ์ด ๋ ผ๋ฌธ์ ๊ณตํต ํ๋ ์์ํฌ๋ก ๋ฌถ์ด ๋ณด๋ ๋ฆฌ๋ทฐ
- Vision Transformer register token / LMM visual sink / LLM text sink๋ฅผ
ํ๋์ โhidden workspaceโ ๊ด์ ์์ ๋น๊ต ๋ถ์
๊ฐ์ ๊ฒ๋ค์ ์ด์ด์ ์ ๋ฆฌํด๋ด๋ ์ฌ๋ฏธ์์ ๊ฒ ๊ฐ๋ค ๐