Post

๐Ÿง  Understanding LISA - LISA ์•Œ์•„๋ณด๊ธฐ?!!

๐Ÿง  Understanding LISA - LISA ์•Œ์•„๋ณด๊ธฐ?!!

๐Ÿง  (ํ•œ๊ตญ์–ด) LISA: ์ถ”๋ก  ๊ธฐ๋ฐ˜ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์˜ ์ƒˆ๋กœ์šด ์ง€ํ‰

๐Ÿ” ๋ณต์žกํ•œ ์–ธ์–ด ์ง€์‹œ๋ฅผ ์ดํ•ดํ•˜๊ณ , ์ด๋ฏธ์ง€์—์„œ ํ•ด๋‹น ์˜์—ญ์„ ๋ถ„ํ• ํ•˜๋Š” ํ˜์‹ ์ ์ธ ๋ชจ๋ธ!

๋…ผ๋ฌธ: LISA: Reasoning Segmentation via Large Language Model
๋ฐœํ‘œ: CVPR 2024 (by CUHK, MSRA, SmartMore)
์ฝ”๋“œ: dvlab-research/LISA
์ฝ”๋ฉ˜ํŠธ: LLM์˜ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ์‹œ๊ฐ ๋ถ„ํ• ์— ์ ‘๋ชฉํ•œ ํš๊ธฐ์ ์ธ ์ ‘๊ทผ!


โ— ๊ธฐ์กด ์‹œ๊ฐ ์ธ์‹ ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„

๋Œ€๋ถ€๋ถ„์˜ ์‹œ๊ฐ ์ธ์‹ ์‹œ์Šคํ…œ์€ ๋ช…์‹œ์ ์ธ ์ง€์‹œ๋‚˜ ์‚ฌ์ „ ์ •์˜๋œ ๋ฒ”์ฃผ์— ์˜์กดํ•˜์—ฌ ๋Œ€์ƒ ๊ฐ์ฒด๋ฅผ ์‹๋ณ„ํ•ฉ๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ์‹œ์Šคํ…œ์€ ์•”์‹œ์ ์ธ ์‚ฌ์šฉ์ž ์˜๋„๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ถ”๋ก ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.

  • ๋ช…์‹œ์  ์ง€์‹œ ํ•„์š”: ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘์ ์œผ๋กœ ๋Œ€์ƒ ๊ฐ์ฒด๋ฅผ ์ง€์ •ํ•ด์•ผ ํ•จ.
  • ์‚ฌ์ „ ์ •์˜๋œ ๋ฒ”์ฃผ ์˜์กด: ์ƒˆ๋กœ์šด ๊ฐ์ฒด๋‚˜ ์ƒํ™ฉ์— ๋Œ€ํ•œ ์œ ์—ฐํ•œ ๋Œ€์‘์ด ์–ด๋ ค์›€.
  • ๋ณต์žกํ•œ ์ถ”๋ก  ๋ถ€์กฑ: โ€œ๋น„ํƒ€๋ฏผ C๊ฐ€ ๋งŽ์€ ์Œ์‹โ€๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์ง€์‹œ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ.

โžก๏ธ ์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ๋ณต์žกํ•˜๊ณ  ์•”์‹œ์ ์ธ ์–ธ์–ด ์ง€์‹œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด๋ฏธ์ง€์—์„œ ํŠน์ • ์˜์—ญ์„ ๋ถ„ํ• ํ•˜๋Š” โ€œ์ถ”๋ก  ๋ถ„ํ• (reasoning segmentation)โ€์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ณผ์ œ๊ฐ€ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.


โœ… LISA์˜ ํ•ต์‹ฌ ํŠน์ง•!

๐Ÿ” 1. ์ถ”๋ก  ๋ถ„ํ• (Reasoning Segmentation)

  • ๋ณต์žกํ•œ ์–ธ์–ด ์ง€์‹œ ์ดํ•ด:
    โ€œ์ด ์ด๋ฏธ์ง€์—์„œ ๋ฏธ๊ตญ ๋Œ€ํ†ต๋ น์ด ๋ˆ„๊ตฌ์ธ์ง€ ๋ถ„ํ•  ๋งˆ์Šคํฌ๋ฅผ ์ถœ๋ ฅํ•˜๊ณ  ์ด์œ ๋ฅผ ์„ค๋ช…ํ•˜์„ธ์š”.โ€ ์™€ ๊ฐ™์€ ์ง€์‹œ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ
  • ์„ธ๊ณ„ ์ง€์‹ ํ™œ์šฉ:
    โ€œ๋น„ํƒ€๋ฏผ C๊ฐ€ ๋งŽ์€ ์Œ์‹โ€ ๋“ฑ ์‹ค์ œ ์ง€์‹์„ ํ™œ์šฉํ•ด ์ ์ ˆํ•œ ์˜์—ญ ๋ถ„ํ• 
  • ์„ค๋ช… ์ œ๊ณต:
    ๋ถ„ํ•  ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์ด์œ ์™€ ์„ค๋ช… ์ƒ์„ฑ ๊ฐ€๋Šฅ

๐Ÿง  2. LISA ๋ชจ๋ธ ๊ตฌ์กฐ

  • ** ํ† ํฐ ๋„์ž…**: ์ƒˆ๋กœ์šด ํ† ํฐ ``๋ฅผ ํ™œ์šฉํ•ด, ์ž„๋ฒ ๋”ฉ ์ž์ฒด๋ฅผ ๋งˆ์Šคํฌ๋กœ ํ•ด์„ํ•˜๋Š” **embedding-as-mask** ํŒจ๋Ÿฌ๋‹ค์ž„ ์‚ฌ์šฉ
  • ๋‹ค์ค‘ ๋ชจ๋‹ฌ LLM ํ™œ์šฉ:
    ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ์‹œ๊ฐ ์ •๋ณด์™€ ๊ฒฐํ•ฉ
  • ์—”๋“œ ํˆฌ ์—”๋“œ ํ•™์Šต:
    ์–ธ์–ด ์ง€์‹œ + ์ด๋ฏธ์ง€ โ†’ ์ง์ ‘ ๋งˆ์Šคํฌ ์ƒ์„ฑ๊นŒ์ง€ ์ด์–ด์ง€๋Š” ๊ตฌ์กฐ

๐Ÿ“Š 3. ReasonSeg ๋ฒค์น˜๋งˆํฌ

  • 1,000๊ฐœ ์ด์ƒ ์ƒ˜ํ”Œ ํฌํ•จ
  • ์„ธ๊ณ„ ์ง€์‹, ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”, ์„ค๋ช… ๊ธฐ๋ฐ˜ ์‘๋‹ต ๋“ฑ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ํ•ญ๋ชฉ
  • ๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ ์ธก์ • ๊ฐ€๋Šฅํ•œ ์ƒˆ๋กœ์šด ๊ธฐ์ค€ ์ œ์‹œ

๐Ÿ‹๏ธโ€โ™‚๏ธ ํ•™์Šต ๋ฐ ์„ฑ๋Šฅ

  • ์ œ๋กœ์ƒท ์„ฑ๋Šฅ:
    ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฐ์ดํ„ฐ ์—†์ด๋„ ๋†€๋ผ์šด ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ฐœํœ˜
  • Few-shot ํŒŒ์ธํŠœ๋‹ ์ง€์›:
    ๋‹จ 239๊ฐœ์˜ ์ถ”๋ก  ๋ถ„ํ•  ์ƒ˜ํ”Œ๋กœ ์„ฑ๋Šฅ ํ–ฅ์ƒ
  • ๋‹ค์–‘ํ•œ ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค:
    ๋Œ€ํ™”ํ˜• ์‹œ์Šคํ…œ, ๋กœ๋ด‡ ๋น„์ „, ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ์—์ด์ „ํŠธ ๋“ฑ ๊ฐ€๋Šฅ

๐Ÿ”š ๋งˆ๋ฌด๋ฆฌ

LISA๋Š” ๋‹จ์ˆœํžˆ ๊ฐ์ฒด๋ฅผ ์ธ์‹ํ•˜๋Š” ์ˆ˜์ค€์„ ๋„˜์–ด,
์–ธ์–ด์  ์ถ”๋ก ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด๋ฏธ์ง€์˜ ์˜๋ฏธ๋ฅผ ํ•ด์„ํ•˜๊ณ  ์‹œ๊ฐ์ ์œผ๋กœ ์‘๋‹ตํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

์ด๋Š” ์ธ๊ฐ„-์ปดํ“จํ„ฐ ์ƒํ˜ธ์ž‘์šฉ, ๋กœ๋ด‡ ๋น„์ „, ์Šค๋งˆํŠธ UI ๋“ฑ
๋‹ค์–‘ํ•œ AI ์‹œ์Šคํ…œ์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์ด ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.


This post is licensed under CC BY 4.0 by the author.