Post

๐ŸŽจ An Image is Worth One Word: Textual Inversion - ์ด๋ฏธ์ง€๋ฅผ `๊ฑฐ์‹œ๊ธฐ` ํ™” ํ•ด๋ณด๋ฆฌ๊ธฐ!!

๐ŸŽจ An Image is Worth One Word: Textual Inversion - ์ด๋ฏธ์ง€๋ฅผ `๊ฑฐ์‹œ๊ธฐ` ํ™” ํ•ด๋ณด๋ฆฌ๊ธฐ!!

๐Ÿง  (ํ•œ๊ตญ์–ด) Textual Inversion ์•Œ์•„๋ณด๊ธฐ!

๐Ÿ” ์•„๋”ฐ ๊ฑฐ์‹œ๊ธฐ์™€ ๊ฐ™์€ ๋ชจ์–‘์œผ๋กœ ๊ทธ๋ฆฌ๋ž‘๊นจ!!

Image


๐Ÿง  ๋ฌธ์ œ์˜์‹

Text-to-Image ์ƒ์„ฑ ๋ชจ๋ธ๋“ค (Stable Diffusion, DALLยทE, Imagen ๋“ฑ)์€ ๋›ฐ์–ด๋‚˜์ง€๋งŒ,
๊ฐœ์ธํ™”(personalization) ์ธก๋ฉด์—์„œ ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ.

  • ๋‚ด๊ฐ€ ํ‚ค์šฐ๋Š” ๊ฐ•์•„์ง€ ๐Ÿถ ๊ฐ™์€ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ฒด๋ฅผ ๊ทธ๋ฆฌ๊ฒŒ ํ•˜๊ณ  ์‹ถ์–ด๋„, ๋ชจ๋ธ์€ ๋ชจ๋ฆ„.
  • ๋งค๋ฒˆ ์ƒˆ๋กœ์šด ๊ฐ์ฒด/์‚ฌ๋žŒ์„ ํ•™์Šต์‹œํ‚ค๋ ค๋ฉด ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์žฌํ•™์Šตํ•ด์•ผ ํ•˜๋Š”๋ฐ ์ด๋Š” ๋น„ํšจ์œจ์ .

๐ŸŒฑ ํ•ต์‹ฌ ์•„์ด๋””์–ด: Textual Inversion

๋‹จ ๋ช‡ ์žฅ์˜ ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ํ‘œํ˜„ํ•˜๋Š” โ€œ๋‹จ์–ด ์ž„๋ฒ ๋”ฉโ€์„ ๋งŒ๋“ค์ž!!!

์ฒซ๋ฒˆ์งธ์ด๋ฏธ์ง€์˜ ๊ฑฐ์‹œ๊ธฐ๋Š” โ€œ๋จธ๋ฆฌ๊ฐ€ ์—†๋Š” ๊ฐ€๋ถ€์ขŒ ๋™์ƒโ€ ์ด๊ณ  ๋‘˜์งธ์ด๋ฏธ์ง€์˜ ๊ฑฐ์‹œ๊ธฐ๋Š” โ€œ๊ณ ์–‘์ด ๋ชจ์–‘์˜ ์ˆ˜์ œํ’ˆโ€ ์ด๋‹ค! Image

  • ์ „์ฒด Diffusion ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋Œ€์‹ ,
  • ํ•˜๋‚˜์˜ ํ† ํฐ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋งŒ ํ•™์Šต โ†’ ๊ฐ€์งœ ๋‹จ์–ด(pseudo-word)์ฒ˜๋Ÿผ ์‚ฌ์šฉ.
  • ์ด ๋‹จ์–ด๋ฅผ ํ”„๋กฌํ”„ํŠธ์— ์‚ฝ์ž…ํ•˜๋ฉด, ํ•ด๋‹น ๊ฐ์ฒด๋ฅผ ๋‹ค์–‘ํ•œ ์žฅ๋ฉดยท์Šคํƒ€์ผ์—์„œ ์ƒ์„ฑ ๊ฐ€๋Šฅ.

์˜ˆ์‹œ:

  • ์ž…๋ ฅ: ๊ฐ•์•„์ง€ ์‚ฌ์ง„ 3~5์žฅ
  • ํ•™์Šต: <dog123> ์ด๋ผ๋Š” ํ† ํฐ ๋ฒกํ„ฐ ์ƒ์„ฑ
  • ํ”„๋กฌํ”„ํŠธ: "A painting of <dog123> in the style of Van Gogh"
  • ๊ฒฐ๊ณผ: ๊ณ ํํ’์œผ๋กœ ๋ณ€ํ™˜๋œ ๋‚˜์˜ ๊ฐ•์•„์ง€ ์ด๋ฏธ์ง€ โœจ

๐Ÿ”ง ๋ฐฉ๋ฒ•๋ก 

๊ณ„์† S๋ฅผ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ ์ด๋ฏธ์ง€ ์ƒ์„ฑํ•ด๊ฐ€๋ฉฐ S์˜ ์ตœ์ ์ ์„ ์ฐพ๋Š”๊ฒƒ!!

Image

  1. ์ž…๋ ฅ ๋ฐ์ดํ„ฐ ์ค€๋น„
    • ๋Œ€์ƒ ๊ฐ์ฒด/์‚ฌ๋žŒ์˜ ๋Œ€ํ‘œ ์ด๋ฏธ์ง€ 3~5์žฅ ์ˆ˜์ง‘ (์ •๋ฉด/์ธก๋ฉด, ๋‹ค์–‘ํ•œ ๋ฐฐ๊ฒฝ/์กฐ๋ช… ํฌํ•จ ๊ถŒ์žฅ).
    • ๊ณผ๋„ํ•œ ๋ฐฐ๊ฒฝ ๋…ธ์ด์ฆˆยท๊ฐ•ํ•œ ํ•„ํ„ฐยท๋‚ฎ์€ ํ•ด์ƒ๋„๋Š” ์ง€์–‘.
    • 3~5 ์žฅ์ด์žˆ์–ด์•ผํ•˜๋Š” ์ด์œ ๋Š” ๊ฑฐ์‹œ๊ธฐ๋ฅผ ํŒŒ์•…ํ• ๋•Œ ์•Œ๋งž๊ฒŒ ํŠน์ง•์„ ๋ฝ‘์„์ˆ˜ ์žˆ๋„๋กํ•˜๊ธฐ์œ„ํ•ด์„œ!!
  2. ๋ชจ๋ธ ๊ณ ์ • (Freeze Pretrained Diffusion)
    • Stable Diffusion ๋“ฑ ์‚ฌ์ „ํ•™์Šต๋œ Diffusion ๋ชจ๋ธ๊ณผ ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋Š” ๋™๊ฒฐ.
    • ๋‹จ ํ•˜๋‚˜์˜ ์ƒˆ ํ† ํฐ ์ž„๋ฒ ๋”ฉ S* (์˜ˆ: 768์ฐจ์›)๋งŒ ํ•™์Šต ๋Œ€์ƒ์œผ๋กœ ๋“ฑ๋ก.
  3. ์ตœ์ ํ™” ๋ฃจํ”„ (Token Vector Training)
    • ํ”„๋กฌํ”„ํŠธ ๊ตฌ์„ฑ: ์˜ˆ) "a photo of S* dog", "S* plush toy on a table".
    • Forward: ํ”„๋กฌํ”„ํŠธ โ†’ ํ…์ŠคํŠธ ์ธ์ฝ”๋”(๋™๊ฒฐ) โ†’ U-Net(๋™๊ฒฐ) โ†’ ๋…ธ์ด์ฆˆ ์˜ˆ์ธก / ์ƒ˜ํ”Œ๋ง.
    • ์†์‹ค ๊ณ„์‚ฐ:
      • (ํ•„์ˆ˜) Diffusion ๋…ธ์ด์ฆˆ ์˜ˆ์ธก MSE:

        \[\mathcal{L}_{\text{diff}} = \|\hat{\epsilon} - \epsilon\|^2\]
      • (์„ ํƒ) ์ •์ฒด์„ฑ ์œ ์ง€/์œ ์‚ฌ๋„ ๋ณด์กฐ์†์‹ค (CLIP/Image encoder ํŠน์ง• ์œ ์‚ฌ๋„):

        \[\mathcal{L}_{\text{clip}}\]
      • ์ด์†์‹ค:

        \[\mathcal{L} = \mathcal{L}_{\text{diff}} + \lambda \mathcal{L}_{\text{clip}}\]
    • ์—ญ์ „ํŒŒ & ๊ฐฑ์‹ : ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ๋Š” S* ์ž„๋ฒ ๋”ฉ์—๋งŒ ์ ์šฉ (Adam ๋“ฑ).
    • ์—ฌ๋Ÿฌ ์ด๋ฏธ์ง€ยท์—ฌ๋Ÿฌ ํ”„๋กฌํ”„ํŠธ ๋ณ€ํ˜•์— ๋Œ€ํ•ด ์ˆ˜์‹ญ~์ˆ˜๋ฐฑ step ๋ฐ˜๋ณต โ†’ S*๊ฐ€ ํƒ€๊นƒ ๊ฐœ๋…์„ ๊ฐ€๋ฆฌํ‚ค๋„๋ก ์ˆ˜๋ ด.
  4. ํ™œ์šฉ (Generation with Learned Token)
    • ํ•™์Šต ์™„๋ฃŒ๋œ S*๋ฅผ ์ผ๋ฐ˜ ๋‹จ์–ด์ฒ˜๋Ÿผ ํ”„๋กฌํ”„ํŠธ์— ์‚ฝ์ž…:
      • "a portrait of S* in the style of Van Gogh"
      • "S* sitting on a sandy beach at sunset"
    • ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋Š” ๊ทธ๋Œ€๋กœ, ํ† ํฐ ์ž„๋ฒ ๋”ฉ๋งŒ ๋กœ๋“œํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์žฅ๋ฉดยท์Šคํƒ€์ผ๋กœ ์ƒ์„ฑ.

ํ•ต์‹ฌ ํฌ์ธํŠธ

  • ๋ชจ๋ธ์€ ๊ณ ์ •, ์ƒˆ ํ† ํฐ ์ž„๋ฒ ๋”ฉ S*๋งŒ ํ•™์Šต.
  • S*๋Š” ํƒ€๊นƒ ๊ฐ์ฒด๋ฅผ ์ €์žฅํ•˜์ง€ ์•Š๊ณ , ์ž ์žฌ ๊ณต๊ฐ„(latent space)์—์„œ ๊ทธ ๊ฐ์ฒด๋ฅผ ๊ฐ€๋ฆฌํ‚ค๋Š” ์ขŒํ‘œ/์ฃผ์†Œ ์—ญํ• .
  • ํ•™์Šต ์‹œ Diffusion ์ƒ˜ํ”Œ๋ง ๋ฐ˜๋ณต์œผ๋กœ ๋ฆฌ์†Œ์Šค ์†Œ๋ชจโ†‘, ํ™œ์šฉ ์‹œ์—๋Š” ๊ฐ€๋ณ๊ณ  ์œ ์—ฐ.

์ถ”๊ฐ€ ์‚ฌํ•ญ

  • ์ดˆ๊ธฐ S*๋Š” ๋žœ๋ค ๋˜๋Š” ์œ ์‚ฌ ์˜๋ฏธ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ํ‰๊ท ์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๋ฉด ์ˆ˜๋ ด์ด ๋น ๋ฆ„.
  • ํ”„๋กฌํ”„ํŠธ์— ํด๋ž˜์Šค ๋‹จ์„œ(e.g., dog, figurine, backpack)๋ฅผ ํ•จ๊ป˜ ๋„ฃ์œผ๋ฉด ์•ˆ์ •์ .
  • ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€: ์ด๋ฏธ์ง€ ์ฆ๊ฐ•(ํฌ๋กญ/์ƒ‰๊ฐ/์ขŒ์šฐ๋ฐ˜์ „), ํ”„๋กฌํ”„ํŠธ ๋‹ค์–‘ํ™”, ์†์‹ค ๊ฐ€์ค‘์น˜ (\lambda) ์กฐ์ ˆ.

๐Ÿงช ์‹คํ—˜ & ๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ (Implementation Details)

  • ๋‹จ 3~5์žฅ๋งŒ์œผ๋กœ๋„ ๊ฐœ๋… ํ•™์Šต ๊ฐ€๋Šฅ.
  • ๋‹ค์–‘ํ•œ ์Šคํƒ€์ผ, ์žฅ์†Œ, ๋งฅ๋ฝ์—์„œ ์ผ๊ด€๋œ ์žฌํ˜„ ์„ฑ๊ณต.
  • ๋ชจ๋ธ ์ „์ฒด ํ•™์Šต๋ณด๋‹ค ๋น ๋ฅด๊ณ  ํšจ์œจ์ .

๊ฝค ์ž˜๋งŒ๋“ค์ฅฌ!?
Image

  • ๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ : ํ•™์Šต ์„ธํŒ…!!
    • ๊ธฐ๋ณธ ์„ค์ •: LDM(Rombach et al., 2021)์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์œ ์ง€.
    • ์ž„๋ฒ ๋”ฉ ์ดˆ๊ธฐํ™”: ๊ฐœ์ฒด๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๋‹จ์ผ ๋‹จ์–ด(์˜ˆ: โ€œsculptureโ€, โ€œcatโ€)์˜ ์‚ฌ์ „ํ•™์Šต ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์‹œ์ž‘.
    • ์‹คํ—˜ ํ™˜๊ฒฝ:
      • GPU: 2 ร— V100
      • Batch size: 4
    • ํ•™์Šต๋ฅ :
      • ๊ธฐ๋ณธ learning rate = 0.005
      • GPU ์ˆ˜์™€ ๋ฐฐ์น˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ์Šค์ผ€์ผ๋ง โ†’ ์ตœ์ข… 0.04 ์ ์šฉ
    • ์ตœ์ ํ™” ์Šคํ…: ์ด 5,000 step
    • ์ถ”๊ฐ€ ๊ด€์ฐฐ: ์ผ๋ถ€ ๊ฐœ๋…์€ ๋” ์ ์€ step ๋˜๋Š” ๋” ๋†’์€ learning rate๋กœ ๋” ์ข‹์€ ๊ฒฐ๊ณผ ๊ฐ€๋Šฅ.

๐Ÿ“Š ๊ฒฐ๊ณผ

  • ์ •์ฒด์„ฑ ์œ ์ง€(Fidelity): ๊ฐ์ฒด์˜ ๊ณ ์œ ํ•œ ํŠน์ง• ์œ ์ง€.
  • ์ผ๋ฐ˜ํ™”(Generality): ์ž„์˜์˜ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€ ์กฐํ•ฉ ๊ฐ€๋Šฅ.
  • ํšจ์œจ์„ฑ(Efficiency): ๊ฐ์ฒด๋งˆ๋‹ค ํ•˜๋‚˜์˜ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋งŒ ํ•„์š”.

โœ… ๊ธฐ์—ฌ

  • Textual Inversion ๊ธฐ๋ฒ• ์ œ์•ˆ โ†’ ์ดˆ๊ฒฝ๋Ÿ‰ ๊ฐœ์ธํ™” ๋ฐฉ๋ฒ•.
  • Diffusion ๋ชจ๋ธ์— ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์ž„.
  • ๋‹ค์–‘ํ•œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ:
    • ๊ฐœ์ธ ์‚ฌ์ง„ ํŽธ์ง‘ โœจ
    • ๋งž์ถคํ˜• ์บ๋ฆญํ„ฐ ์ƒ์„ฑ ๐ŸŽญ
    • ๋””์ž์ธยทํŒจ์…˜ ๐Ÿ‘œ

โš ๏ธ ํ•œ๊ณ„ (Limitations)

  • ์ •ํ™•ํ•œ ํ˜•ํƒœ(Shape) ํ•™์Šต ์–ด๋ ค์›€ โ†’ ๊ฐœ๋…์˜ โ€œ์˜๋ฏธ์  ๋ณธ์งˆ(semantic essence)โ€์„ ์ฃผ๋กœ ํฌ์ฐฉ
  • ์ตœ์ ํ™” ์‹œ๊ฐ„ ๊ธธ์Œ โ†’ ๊ฐœ๋… ํ•˜๋‚˜ ํ•™์Šต์— ์•ฝ 2์‹œ๊ฐ„ ์†Œ์š”
    • ๊ฐœ์„  ๋ฐฉ์•ˆ: ์ธ์ฝ”๋” ํ•™์Šต์„ ํ†ตํ•ด ์ด๋ฏธ์ง€๋ฅผ ๋ฐ”๋กœ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋งคํ•‘
  • ์ •๋ฐ€๋„๊ฐ€ ์š”๊ตฌ๋˜๋Š” ์ž‘์—…์—๋Š” ์•„์ง ํ•œ๊ณ„ ์กด์žฌ

๐Ÿš€ ๊ฒฐ๋ก  (Conclusions)

  • Textual Inversion ๊ธฐ๋ฒ• ์ œ์•ˆ
    • ์‚ฌ์ „ํ•™์Šต๋œ ํ…์ŠคํŠธ-ํˆฌ-์ด๋ฏธ์ง€ ๋ชจ๋ธ์˜ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์— ์ƒˆ๋กœ์šด pseudo-word ์‚ฝ์ž…
    • ์ž์—ฐ์–ด ํ”„๋กฌํ”„ํŠธ์— ์‚ฝ์ž…ํ•˜์—ฌ ์ง๊ด€์ ์ด๊ณ  ๋‹จ์ˆœํ•œ ๋ฐฉ์‹์œผ๋กœ ๊ฐœ๋…์„ ์ƒˆ๋กœ์šด ์žฅ๋ฉดยท์Šคํƒ€์ผ์— ์ ์šฉ ๊ฐ€๋Šฅ
  • ํŠน์ง•
    • LDM(Rombach et al., 2021) ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌํ˜„ํ–ˆ์œผ๋‚˜ ํŠน์ • ์•„ํ‚คํ…์ฒ˜์— ์ข…์†๋˜์ง€ ์•Š์Œ
    • ๋‹ค๋ฅธ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅ!! โ†’ ์ •ํ•ฉ์„ฑ, ํ˜•ํƒœ ๋ณด์กด, ํ’ˆ์งˆ ํ–ฅ์ƒ ๊ฐ€๋Šฅ์„ฑ
  • ์˜์˜
    • ๊ฐœ์ธํ™”๋œ ์ƒ์„ฑ AI ์—ฐ๊ตฌ์˜ ํ† ๋Œ€ ๋งˆ๋ จ
    • ์˜ˆ์ˆ ์  ์˜๊ฐ, ์ œํ’ˆ ๋””์ž์ธ ๋“ฑ ๋‹ค์–‘ํ•œ ํ›„์† ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ

๐Ÿš€ ์˜์˜


๐Ÿ‘‰ ์ •๋ฆฌ:
โ€œAn Image is Worth One Wordโ€๋Š” ๊ฐœ์ธํ™”๋ฅผ ๋‹จ ํ•˜๋‚˜์˜ ์ƒˆ๋กœ์šด ๋‹จ์–ด ํ•™์Šต์œผ๋กœ ๊ฐ€๋Šฅ์ผ€ ํ•จ.
๊ฑฐ๋Œ€ํ•œ ๋ชจ๋ธ์„ ๋‹ค์‹œ ํ•™์Šตํ•  ํ•„์š” ์—†์ด, ์ž‘์€ ํ† ํฐ๋งŒ ํ•™์Šตํ•ด๋„ ์›ํ•˜๋Š” ๊ฐ์ฒด๋ฅผ ์ž์œ ๋กญ๊ฒŒ ์ƒ์„ฑ ๊ฐ€๋Šฅ.


This post is licensed under CC BY 4.0 by the author.