๐จ An Image is Worth One Word: Textual Inversion - ์ด๋ฏธ์ง๋ฅผ `๊ฑฐ์๊ธฐ` ํ ํด๋ณด๋ฆฌ๊ธฐ!!
๐ง (ํ๊ตญ์ด) Textual Inversion ์์๋ณด๊ธฐ!
๐ ์๋ฐ ๊ฑฐ์๊ธฐ์ ๊ฐ์ ๋ชจ์์ผ๋ก ๊ทธ๋ฆฌ๋๊นจ!!
- ์ ๋ชฉ: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
- ํํ: ICLR 2023 (Rinon Gal et al.)
- ํต์ฌ ํค์๋:
Text-to-Image
,Diffusion Models
,Personalization
,Textual Inversion
๐ง ๋ฌธ์ ์์
Text-to-Image ์์ฑ ๋ชจ๋ธ๋ค (Stable Diffusion, DALLยทE, Imagen ๋ฑ)์ ๋ฐ์ด๋์ง๋ง,
๊ฐ์ธํ(personalization) ์ธก๋ฉด์์ ํ๊ณ๊ฐ ์์.
- ๋ด๊ฐ ํค์ฐ๋ ๊ฐ์์ง ๐ถ ๊ฐ์ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ฒด๋ฅผ ๊ทธ๋ฆฌ๊ฒ ํ๊ณ ์ถ์ด๋, ๋ชจ๋ธ์ ๋ชจ๋ฆ.
- ๋งค๋ฒ ์๋ก์ด ๊ฐ์ฒด/์ฌ๋์ ํ์ต์ํค๋ ค๋ฉด ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ฌํ์ตํด์ผ ํ๋๋ฐ ์ด๋ ๋นํจ์จ์ .
๐ฑ ํต์ฌ ์์ด๋์ด: Textual Inversion
๋จ ๋ช ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ํตํด ์๋ก์ด ๊ฐ๋ ์ ํํํ๋ โ๋จ์ด ์๋ฒ ๋ฉโ์ ๋ง๋ค์!!!
์ฒซ๋ฒ์งธ์ด๋ฏธ์ง์ ๊ฑฐ์๊ธฐ๋ โ๋จธ๋ฆฌ๊ฐ ์๋ ๊ฐ๋ถ์ข ๋์โ ์ด๊ณ ๋์งธ์ด๋ฏธ์ง์ ๊ฑฐ์๊ธฐ๋ โ๊ณ ์์ด ๋ชจ์์ ์์ ํโ ์ด๋ค!
- ์ ์ฒด Diffusion ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋์ ,
- ํ๋์ ํ ํฐ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ง ํ์ต โ ๊ฐ์ง ๋จ์ด(pseudo-word)์ฒ๋ผ ์ฌ์ฉ.
- ์ด ๋จ์ด๋ฅผ ํ๋กฌํํธ์ ์ฝ์ ํ๋ฉด, ํด๋น ๊ฐ์ฒด๋ฅผ ๋ค์ํ ์ฅ๋ฉดยท์คํ์ผ์์ ์์ฑ ๊ฐ๋ฅ.
์์:
- ์ ๋ ฅ: ๊ฐ์์ง ์ฌ์ง 3~5์ฅ
- ํ์ต:
<dog123>
์ด๋ผ๋ ํ ํฐ ๋ฒกํฐ ์์ฑ - ํ๋กฌํํธ:
"A painting of <dog123> in the style of Van Gogh"
- ๊ฒฐ๊ณผ: ๊ณ ํํ์ผ๋ก ๋ณํ๋ ๋์ ๊ฐ์์ง ์ด๋ฏธ์ง โจ
๐ง ๋ฐฉ๋ฒ๋ก
๊ณ์ S๋ฅผ ๋ฐ๊ฟ๊ฐ๋ฉฐ ์ด๋ฏธ์ง ์์ฑํด๊ฐ๋ฉฐ S์ ์ต์ ์ ์ ์ฐพ๋๊ฒ!!
- ์
๋ ฅ ๋ฐ์ดํฐ ์ค๋น
- ๋์ ๊ฐ์ฒด/์ฌ๋์ ๋ํ ์ด๋ฏธ์ง 3~5์ฅ ์์ง (์ ๋ฉด/์ธก๋ฉด, ๋ค์ํ ๋ฐฐ๊ฒฝ/์กฐ๋ช ํฌํจ ๊ถ์ฅ).
- ๊ณผ๋ํ ๋ฐฐ๊ฒฝ ๋ ธ์ด์ฆยท๊ฐํ ํํฐยท๋ฎ์ ํด์๋๋ ์ง์.
- 3~5 ์ฅ์ด์์ด์ผํ๋ ์ด์ ๋ ๊ฑฐ์๊ธฐ๋ฅผ ํ์ ํ ๋ ์๋ง๊ฒ ํน์ง์ ๋ฝ์์ ์๋๋กํ๊ธฐ์ํด์!!
- ๋ชจ๋ธ ๊ณ ์ (Freeze Pretrained Diffusion)
- Stable Diffusion ๋ฑ ์ฌ์ ํ์ต๋ Diffusion ๋ชจ๋ธ๊ณผ ํ ์คํธ ์ธ์ฝ๋๋ ๋๊ฒฐ.
- ๋จ ํ๋์ ์ ํ ํฐ ์๋ฒ ๋ฉ S* (์: 768์ฐจ์)๋ง ํ์ต ๋์์ผ๋ก ๋ฑ๋ก.
- ์ต์ ํ ๋ฃจํ (Token Vector Training)
- ํ๋กฌํํธ ๊ตฌ์ฑ: ์)
"a photo of S* dog"
,"S* plush toy on a table"
. - Forward: ํ๋กฌํํธ โ ํ ์คํธ ์ธ์ฝ๋(๋๊ฒฐ) โ U-Net(๋๊ฒฐ) โ ๋ ธ์ด์ฆ ์์ธก / ์ํ๋ง.
- ์์ค ๊ณ์ฐ:
(ํ์) Diffusion ๋ ธ์ด์ฆ ์์ธก MSE:
\[\mathcal{L}_{\text{diff}} = \|\hat{\epsilon} - \epsilon\|^2\](์ ํ) ์ ์ฒด์ฑ ์ ์ง/์ ์ฌ๋ ๋ณด์กฐ์์ค (CLIP/Image encoder ํน์ง ์ ์ฌ๋):
\[\mathcal{L}_{\text{clip}}\]์ด์์ค:
\[\mathcal{L} = \mathcal{L}_{\text{diff}} + \lambda \mathcal{L}_{\text{clip}}\]
- ์ญ์ ํ & ๊ฐฑ์ : ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ๋ S* ์๋ฒ ๋ฉ์๋ง ์ ์ฉ (Adam ๋ฑ).
- ์ฌ๋ฌ ์ด๋ฏธ์งยท์ฌ๋ฌ ํ๋กฌํํธ ๋ณํ์ ๋ํด ์์ญ~์๋ฐฑ step ๋ฐ๋ณต โ S*๊ฐ ํ๊น ๊ฐ๋ ์ ๊ฐ๋ฆฌํค๋๋ก ์๋ ด.
- ํ๋กฌํํธ ๊ตฌ์ฑ: ์)
- ํ์ฉ (Generation with Learned Token)
- ํ์ต ์๋ฃ๋ S*๋ฅผ ์ผ๋ฐ ๋จ์ด์ฒ๋ผ ํ๋กฌํํธ์ ์ฝ์
:
"a portrait of S* in the style of Van Gogh"
"S* sitting on a sandy beach at sunset"
- ๋ชจ๋ธ ๊ฐ์ค์น๋ ๊ทธ๋๋ก, ํ ํฐ ์๋ฒ ๋ฉ๋ง ๋ก๋ํ์ฌ ๋ค์ํ ์ฅ๋ฉดยท์คํ์ผ๋ก ์์ฑ.
- ํ์ต ์๋ฃ๋ S*๋ฅผ ์ผ๋ฐ ๋จ์ด์ฒ๋ผ ํ๋กฌํํธ์ ์ฝ์
:
ํต์ฌ ํฌ์ธํธ
- ๋ชจ๋ธ์ ๊ณ ์ , ์ ํ ํฐ ์๋ฒ ๋ฉ S*๋ง ํ์ต.
- S*๋ ํ๊น ๊ฐ์ฒด๋ฅผ ์ ์ฅํ์ง ์๊ณ , ์ ์ฌ ๊ณต๊ฐ(latent space)์์ ๊ทธ ๊ฐ์ฒด๋ฅผ ๊ฐ๋ฆฌํค๋ ์ขํ/์ฃผ์ ์ญํ .
- ํ์ต ์ Diffusion ์ํ๋ง ๋ฐ๋ณต์ผ๋ก ๋ฆฌ์์ค ์๋ชจโ, ํ์ฉ ์์๋ ๊ฐ๋ณ๊ณ ์ ์ฐ.
์ถ๊ฐ ์ฌํญ
- ์ด๊ธฐ S*๋ ๋๋ค ๋๋ ์ ์ฌ ์๋ฏธ ๋จ์ด ์๋ฒ ๋ฉ ํ๊ท ์ผ๋ก ์ด๊ธฐํํ๋ฉด ์๋ ด์ด ๋น ๋ฆ.
- ํ๋กฌํํธ์ ํด๋์ค ๋จ์(e.g., dog, figurine, backpack)๋ฅผ ํจ๊ป ๋ฃ์ผ๋ฉด ์์ ์ .
- ๊ณผ์ ํฉ ๋ฐฉ์ง: ์ด๋ฏธ์ง ์ฆ๊ฐ(ํฌ๋กญ/์๊ฐ/์ข์ฐ๋ฐ์ ), ํ๋กฌํํธ ๋ค์ํ, ์์ค ๊ฐ์ค์น (\lambda) ์กฐ์ .
๐งช ์คํ & ๊ตฌํ ์ธ๋ถ์ฌํญ (Implementation Details)
- ๋จ 3~5์ฅ๋ง์ผ๋ก๋ ๊ฐ๋ ํ์ต ๊ฐ๋ฅ.
- ๋ค์ํ ์คํ์ผ, ์ฅ์, ๋งฅ๋ฝ์์ ์ผ๊ด๋ ์ฌํ ์ฑ๊ณต.
- ๋ชจ๋ธ ์ ์ฒด ํ์ต๋ณด๋ค ๋น ๋ฅด๊ณ ํจ์จ์ .
- ๊ตฌํ ์ธ๋ถ์ฌํญ : ํ์ต ์ธํ
!!
- ๊ธฐ๋ณธ ์ค์ : LDM(Rombach et al., 2021)์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ ์ง.
- ์๋ฒ ๋ฉ ์ด๊ธฐํ: ๊ฐ์ฒด๋ฅผ ์ค๋ช ํ๋ ๋จ์ผ ๋จ์ด(์: โsculptureโ, โcatโ)์ ์ฌ์ ํ์ต ์๋ฒ ๋ฉ์ผ๋ก ์์.
- ์คํ ํ๊ฒฝ:
- GPU: 2 ร V100
- Batch size: 4
- ํ์ต๋ฅ :
- ๊ธฐ๋ณธ learning rate = 0.005
- GPU ์์ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ฐ๋ผ ์ค์ผ์ผ๋ง โ ์ต์ข 0.04 ์ ์ฉ
- ์ต์ ํ ์คํ : ์ด 5,000 step
- ์ถ๊ฐ ๊ด์ฐฐ: ์ผ๋ถ ๊ฐ๋ ์ ๋ ์ ์ step ๋๋ ๋ ๋์ learning rate๋ก ๋ ์ข์ ๊ฒฐ๊ณผ ๊ฐ๋ฅ.
๐ ๊ฒฐ๊ณผ
- ์ ์ฒด์ฑ ์ ์ง(Fidelity): ๊ฐ์ฒด์ ๊ณ ์ ํ ํน์ง ์ ์ง.
- ์ผ๋ฐํ(Generality): ์์์ ํ ์คํธ ํ๋กฌํํธ์ ์กฐํฉ ๊ฐ๋ฅ.
- ํจ์จ์ฑ(Efficiency): ๊ฐ์ฒด๋ง๋ค ํ๋์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ง ํ์.
โ ๊ธฐ์ฌ
- Textual Inversion ๊ธฐ๋ฒ ์ ์ โ ์ด๊ฒฝ๋ ๊ฐ์ธํ ๋ฐฉ๋ฒ.
- Diffusion ๋ชจ๋ธ์ ์ ์ฉ ๊ฐ๋ฅํจ์ ๋ณด์.
- ๋ค์ํ ์์ฉ ๊ฐ๋ฅ์ฑ ์ ์:
- ๊ฐ์ธ ์ฌ์ง ํธ์ง โจ
- ๋ง์ถคํ ์บ๋ฆญํฐ ์์ฑ ๐ญ
- ๋์์ธยทํจ์ ๐
โ ๏ธ ํ๊ณ (Limitations)
- ์ ํํ ํํ(Shape) ํ์ต ์ด๋ ค์ โ ๊ฐ๋ ์ โ์๋ฏธ์ ๋ณธ์ง(semantic essence)โ์ ์ฃผ๋ก ํฌ์ฐฉ
- ์ต์ ํ ์๊ฐ ๊ธธ์ โ ๊ฐ๋
ํ๋ ํ์ต์ ์ฝ 2์๊ฐ ์์
- ๊ฐ์ ๋ฐฉ์: ์ธ์ฝ๋ ํ์ต์ ํตํด ์ด๋ฏธ์ง๋ฅผ ๋ฐ๋ก ํ ์คํธ ์๋ฒ ๋ฉ์ผ๋ก ๋งคํ
- ์ ๋ฐ๋๊ฐ ์๊ตฌ๋๋ ์์ ์๋ ์์ง ํ๊ณ ์กด์ฌ
๐ ๊ฒฐ๋ก (Conclusions)
- Textual Inversion ๊ธฐ๋ฒ ์ ์
- ์ฌ์ ํ์ต๋ ํ ์คํธ-ํฌ-์ด๋ฏธ์ง ๋ชจ๋ธ์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ ์๋ก์ด pseudo-word ์ฝ์
- ์์ฐ์ด ํ๋กฌํํธ์ ์ฝ์ ํ์ฌ ์ง๊ด์ ์ด๊ณ ๋จ์ํ ๋ฐฉ์์ผ๋ก ๊ฐ๋ ์ ์๋ก์ด ์ฅ๋ฉดยท์คํ์ผ์ ์ ์ฉ ๊ฐ๋ฅ
- ํน์ง
- LDM(Rombach et al., 2021) ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํ์ผ๋ ํน์ ์ํคํ ์ฒ์ ์ข ์๋์ง ์์
- ๋ค๋ฅธ ๋๊ท๋ชจ ๋ชจ๋ธ์๋ ์ ์ฉ ๊ฐ๋ฅ!! โ ์ ํฉ์ฑ, ํํ ๋ณด์กด, ํ์ง ํฅ์ ๊ฐ๋ฅ์ฑ
- ์์
- ๊ฐ์ธํ๋ ์์ฑ AI ์ฐ๊ตฌ์ ํ ๋ ๋ง๋ จ
- ์์ ์ ์๊ฐ, ์ ํ ๋์์ธ ๋ฑ ๋ค์ํ ํ์ ์์ฉ ๊ฐ๋ฅ์ฑ ์ ์
๐ ์์
๐ ์ ๋ฆฌ:
โAn Image is Worth One Wordโ๋ ๊ฐ์ธํ๋ฅผ ๋จ ํ๋์ ์๋ก์ด ๋จ์ด ํ์ต์ผ๋ก ๊ฐ๋ฅ์ผ ํจ.
๊ฑฐ๋ํ ๋ชจ๋ธ์ ๋ค์ ํ์ตํ ํ์ ์์ด, ์์ ํ ํฐ๋ง ํ์ตํด๋ ์ํ๋ ๊ฐ์ฒด๋ฅผ ์์ ๋กญ๊ฒ ์์ฑ ๊ฐ๋ฅ.