โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-054 PixelSmile: Toward Fine-Grained Facial Expression Editing
arXiv: 2603.25728 ๊ธฐ๊ด: Fudan University Upvotes: 105 | Comments: 3 ์์: ์ด๋ฒ ์ฃผ Top 4
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: PixelSmile: Toward Fine-Grained Facial Expression Editing
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์ผ๊ตด ํ์ ํธ์ง ๋ชจ๋ธ๋ค์ ํ์ ์ โํ๋ณตโ, โ์ฌํโ ๊ฐ์ ๋ฑ๋ฑํ๊ฒ ๊ตฌ๋ถ๋ ์์ ์์ ๋ฃ์ด์ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์, ์๋ก ๋น์ทํ ํ์ (์: ๊ณตํฌ์ ๋๋)์ ๊ตฌ๋ณํ์ง ๋ชปํ๊ฑฐ๋ ํ์ ์ ๋ฐ๊ฟ ๋ ์ฌ๋์ ์ ์(identity)๊น์ง ๋ณํ์ํค๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ํ์ ์ ์ฐ์์ ์ธ ์คํํธ๋ผ์ผ๋ก ์ดํดํ๊ณ , ํ ์คํธ ์ ์ฌ ๊ณต๊ฐ์์ ์ ํ์ ์ผ๋ก ๋ณด๊ฐ(interpolation)ํ์ฌ ํ์ ์ ๊ฐ๋๋ฅผ ๋ฏธ์ธํ๊ฒ ์กฐ์ ํ ์ ์๋ โPixelSmileโ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ ๋ก ์ค๋ช
์ด์ ์ AI ๋ชจ๋ธ์ TV ๋ฆฌ๋ชจ์ปจ์ ์ฑ๋ ๋ฒํผ์ฒ๋ผ ์๋ํ์ต๋๋ค. ์ฑ๋ 1๋ฒ์ โ์์โ, ์ฑ๋ 2๋ฒ์ โํ๋จโ์ธ ์์ด์ฃ . ํ์ง๋ง ์ฐ๋ฆฌ๊ฐ ์ค์ํ์์ ๋๋ผ๋ ๊ฐ์ ์ ์ด๋ ๊ฒ ๋จ์ํ์ง ์์ต๋๋ค. โ์กฐ๊ธ ๋๋ ํ์ โ์ด๋ โํ๊ฐ ๋๋ฉด์๋ ๋นํฉํ ํ์ โ ๊ฐ์ ๋ฏธ์ธํ ๋์์ค๊ฐ ํ์ํ์ฃ . PixelSmile์ TV ์ฑ๋ ๋ฒํผ ๋์ โ๋ฐ๊ธฐ ์กฐ์ ์์ก์ด(Dimmer)โ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ฌ์ฉ์๋ โ์ค๋ฆฝโ์์ โ์์ ํ ๋๋โ ์ฌ์ด๋ฅผ ์์ ์์ฌ๋ก ์ค๊ฐ ์ ์์ผ๋ฉฐ, ์ฌ์ง์ด ๊ทธ ์ด์์ ๊ฐ๋๋ก ์กฐ์ ํ ์๋ ์์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ๋ชจ๋ธ์ ํฌ๊ฒ ๋ ๊ฐ์ง ํต์ฌ ๋จ๊ณ๋ก ์๋ํฉ๋๋ค.
์ฒซ์งธ, ํ ์คํธ ์ ์ฌ ๋ณด๊ฐ(Textual Latent Interpolation) ๊ธฐ์ ์ ์ฌ์ฉํฉ๋๋ค. AI๊ฐ โ์ค๋ฆฝ์ธ ์ผ๊ตดโ๊ณผ โ์๊ณ ์๋ ์ผ๊ตดโ์ด๋ผ๋ ๋ฌธ์ฅ์ ์ดํดํ ๋, ๊ทธ ์ฌ์ด์ ์ํ์ ๊ฑฐ๋ฆฌ์ ๋ฐฉํฅ์ ๊ณ์ฐํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๊ทธ ๋ฐฉํฅ์ ๋ฐ๋ผ 10%๋ง ๊ฐ์๋ โ์ด์ง ๋ฏธ์โ, 50% ๊ฐ์๋ โํ๋ฒํ ๋ฏธ์โ๋ฅผ ๋ง๋ค์ด๋ ๋๋ค. ์ด๋ฅผ ํตํด ๋ถ์ฐ์์ ์ธ ๋จ๊ณ๊ฐ ์๋ ์์ฐ์ค๋ฌ์ด ์ฐ์ ๋ณํ๊ฐ ๊ฐ๋ฅํด์ง๋๋ค.
๋์งธ, **์์ ๋์นญ ๊ณต๋ ํ์ต(Fully Symmetric Joint Training)**์ ํตํด ํผ๋์ ์ค์ ๋๋ค. ์๋ก ๋น์ทํด์ ํท๊ฐ๋ฆฌ๊ธฐ ์ฌ์ด ํ์ ์(์: ๊ณตํฌ-๋๋)์ ์๋ก ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก๋ ํ์ต์ํต๋๋ค. A์์ B๋ก ๊ฐ๋ ๋ฒ์ ๋ฐฐ์ธ ๋ ๋์์ B์์ A๋ก ๊ฐ๋ ๋ฒ๋ ํ์ต์์ผ, AI๊ฐ ๋ ๊ฐ์ ์ ๋ฏธ์ธํ ์ฐจ์ด๋ฅผ ์ ํํ ๊ตฌ๋ถํ๋๋ก ๋ง๋๋ ๊ฒ์ ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ์ํ์ ํต์ฌ์ ์กฐ๊ฑด ์๋ฒ ๋ฉ(embedding)์ ์ ํ์ ์ผ๋ก ์ ์ดํ๋ ๋ฐ ์์ต๋๋ค. ๊ธฐ๋ณธ ์ค๋ฆฝ ํ๋กฌํํธ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ $e_{neu}$, ๋ชฉํ ํ์ ํ๋กฌํํธ์ ์๋ฒ ๋ฉ์ $e_{tgt}$๋ผ๊ณ ํ ๋, ๊ทธ ์ฐจ์ด์ธ $\Delta e = e_{tgt} - e_{neu}$๋ฅผ โ๊ฐ์ ์ ๋ฐฉํฅ ๋ฒกํฐโ๋ก ์ ์ํฉ๋๋ค.
์ต์ข ์กฐ๊ฑด ์๋ฒ ๋ฉ $e_{cond}(\alpha)$์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค. $$e_{cond}(\alpha) = e_{neu} + \alpha \cdot \Delta e, \quad \alpha \in [0,1]$$
์ฌ๊ธฐ์ $\alpha$๋ ์ฐ๋ฆฌ๊ฐ ์กฐ์ ํ๋ ์์ก์ด์ ๋๋ค. $\alpha=0$์ด๋ฉด ๋ณํ๊ฐ ์๊ณ , $\alpha=1$์ด๋ฉด ๋ชฉํ ํ์ ์ด ๋๋ฉฐ, ๊ทธ ์ฌ์ด ๊ฐ์ ๋ฏธ์ธํ ์ค๊ฐ ๋จ๊ณ๊ฐ ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ถ์ฐ์์ ์ธ ๋ผ๋ฒจ ๋์ ์ฐ์์ ์ธ ํ๋ฆ ์์์ ํ์ ์ ์์ฑํ๊ฒ ๋ฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
ํ ์คํธ ๋ฒค์น๋งํฌ (FFE-Bench)
์ ์๋ค์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ๋ถ์กฑํจ์ ์ฑ์ฐ๊ธฐ ์ํด ์ง์ FFE ๋ฐ์ดํฐ์ ๊ณผ FFE-Bench๋ผ๋ ํ๊ฐ ๊ธฐ์ค์ ๋ง๋ค์์ต๋๋ค. ์ฌ๊ธฐ์๋ ๋ค ๊ฐ์ง ์ฃผ์ ์งํ๋ก ์ฑ๋ฅ์ ์ธก์ ํฉ๋๋ค.
- ๊ตฌ์กฐ์ ํผ๋(Structural Confusion): ๋น์ทํ ํ์ ๋ผ๋ฆฌ ์ผ๋ง๋ ํท๊ฐ๋ฆฌ๋๊ฐ?
- ํธ์ง ์ ํ๋(Editing Accuracy): ํ์ ์ด ์ผ๋ง๋ ์๋ํ ๋๋ก ๋ณํ๋๊ฐ?
- ์ ํ ์ ์ด ๊ฐ๋ฅ์ฑ(Linear Controllability): ๊ฐ๋ ์กฐ์ ์ด ์ผ๋ง๋ ๋ถ๋๋ฌ์ด ์ง์ ์ฑ์ ๋ ๋๊ฐ?
- ์ ์ ๋ณด์กด(Identity Preservation): ํ์ ์ ๋ฐ๊ฟ๋ ์๋ ์ฌ๋์ด ์ ์ง๋๋๊ฐ?
๊ธฐ์กด SOTA(State-of-the-art) ๋๋น ์ฑ๋ฅ
PixelSmile์ ๊ธฐ์กด ์ต๊ณ ์์ค์ ๋ชจ๋ธ๋ค์ธ IP-Adapter, ControlNet ๋ฑ๊ณผ ๋น๊ตํ์ฌ ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ โ๊ตฌ์กฐ์ ํผ๋โ ์งํ์์, ๊ธฐ์กด ๋ชจ๋ธ๋ค์ด โ๊ณตํฌโ๋ฅผ ์์ฑํ๋ ค ํ ๋ ์๊พธ โ๋๋โ์ ํน์ง์ ์์ด ๋ฒ๋ฆฌ๋ ์ค๋ฅ๋ฅผ ๋ฒํ๋ ๋ฐ๋ฉด, PixelSmile์ ์ด๋ฌํ ์๋ฏธ์ ํผ์ (Semantic Entanglement)์ ํ๊ธฐ์ ์ผ๋ก ์ค์์ต๋๋ค. ๋ํ, ํ์ ์ ๋ฐ๊พธ๋ ๊ณผ์ ์์ ์ฌ๋์ ์ผ๊ตด ํน์ง(identity)์ด ๋ณํ๋ ํ์๋ ๊ฐ์ฅ ์ ๊ฒ ๋ฐ์ํ์ฌ ๋์ ์ ์ ๋ณด์กด ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
๋จ์ํ ํ์ ์ ๋ฐ๊พธ๋ ๊ฒ์ ๋์ด, ํ ์คํธ ํ๋กฌํํธ๋ง์ผ๋ก ํ์ ์ ๊ฐ๋๋ฅผ 0%์์ 100%๊น์ง, ์ฌ์ง์ด 120%๊น์ง(๊ณผ์ฅ๋ ํ์ ) ์ ํ์ ์ผ๋ก ์กฐ์ ํ ์ ์๋ค๋ ์ ์ด ๊ฐ์ฅ ์ธ์์ ์ ๋๋ค. ์ด๋ ์ํ๋ ๊ฒ์ ์บ๋ฆญํฐ ์ ์์์ ์ฐ๊ธฐ์ ๋ํ ์ผ์ ์กฐ์ ํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉํ ํน์ฑ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
ํ์ฌ ๋ชจ๋ธ์ ์ฃผ๋ก ์ ๋ฉด ์ผ๊ตด์ด๋ ๋ช ํํ๊ฒ ๋๋ฌ๋ ์ผ๊ตด์ ์ต์ ํ๋์ด ์์ต๋๋ค. ๊ทน๋จ์ ์ธ ๊ฐ๋์์ ์ฐํ ์ผ๊ตด์ด๋ ์ผ๊ตด์ ๋๋ถ๋ถ์ด ๊ฐ๋ ค์ง ๊ฒฝ์ฐ์๋ ๋ฏธ์ธํ ํ์ ํธ์ง ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ต๋๋ค. ๋ํ, ์ฐ์์ ์ธ ๊ฐ์ ์ฃผ์์ ์ฌ๋์ด ์ง์ ๋ค๋ ๊ณผ์ ์์ ์ฃผ๊ด์ ์ธ ํธ์ฐจ๊ฐ ๋ฐ์ํ ์ ์๋ค๋ ์ ๋ ๋ฐ์ดํฐ์ ์ ํ๊ณ๋ก ์ธ๊ธ๋์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ์ด ์ ์ ์ธ ์ด๋ฏธ์ง ํธ์ง ๊ธฐ์ ์ ์์(Video)์ผ๋ก ํ์ฅํ์ฌ, ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์์ฐ์ค๋ฝ๊ฒ ํ์ ์ด ๋ณํ๋ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์์ ๊ฒ์ ๋๋ค. ๋ํ, ๋ชฉ์๋ฆฌ๋ ์์ฑ ์ ํธ์ ์ฐ๋ํ์ฌ ํ ์คํธ ์ ๋ ฅ ์์ด๋ ํ์ ์ ์ ์ดํ๋ ๋ฉํฐ๋ชจ๋ฌ(Multi-modal) ๋ฐฉ์์ผ๋ก ๋ฐ์ ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด๋์ ๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅ?
์ด ๊ธฐ์ ์ ํฌํ ์ต์ด๋ ์ค๋งํธํฐ ์ฌ์ง ํธ์ง ์ฑ ๊ฐ์ ์๋น์์ฉ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ฆ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ์ฌ์ฉ์๊ฐ โ์กฐ๊ธ ๋ ํ๋๊ฒโ, โ์ฝ๊ฐ ์ฌํ๊ฒโ ๊ฐ์ ๋ช ๋ น์ ์ฌ๋ผ์ด๋๋ก ์กฐ์ ํ์ฌ ์์ฐ์ค๋ฌ์ด ์ฌ์ง์ ๋ง๋ค ์ ์๊ฒ ๋ฉ๋๋ค. ๋ํ, ๋ฉํ๋ฒ์ค ์๋ฐํ๋ ๊ฒ์ NPC(Non-Player Character)์ ํ์ ์ ์ ์ํ๋ ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ๋จ์ถ์์ผ, ๋ ํ๋ถํ ๊ฐ์ ์ฐ์ถ์ด ๊ฐ๋ฅํด์ง ๊ฒ์ ๋๋ค.
ํ์ํ ๋ฆฌ์์ค
PixelSmile์ Flux์ ๊ฐ์ ๋๊ท๋ชจ ํ์ฐ ๋ชจ๋ธ(MMDiT)์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฏ๋ก, ์ถ๋ก ์ ์๋นํ ๊ทธ๋ํฝ ๋ฉ๋ชจ๋ฆฌ(GPU VRAM)๊ฐ ํ์ํฉ๋๋ค. ์ผ๋ฐ์ ์ธ ์๋น์์ฉ GPU๋ณด๋ค๋ ๊ณ ์ฌ์ ์๋ฒ๊ธ ํ๊ฒฝ์์ ์ํํ๊ฒ ์๋ํ ๊ฐ๋ฅ์ฑ์ด ๋์ผ๋ฉฐ, ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ์ฉํ๋ ค๋ฉด ๋ชจ๋ธ์ ๊ฒฝ๋ํ(Quantization) ๊ณผ์ ์ด ์ถ๊ฐ๋ก ํ์ํ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ํ์ฐ ๋ชจ๋ธ(Diffusion Model): ๋ ธ์ด์ฆ๋ฅผ ์ ์ฐจ ์ ๊ฑฐํ์ฌ ๊นจ๋ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์์ฑํ AI์ ํต์ฌ ์ํคํ ์ฒ์ ๋๋ค.
- ์ ์ฌ ๊ณต๊ฐ(Latent Space): ์ด๋ฏธ์ง๋ ํ ์คํธ๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ๊ธฐ ์ฌ์ด ์ซ์์ ์งํฉ(๋ฒกํฐ)์ผ๋ก ์์ถํด ๋์ ์ถ์์ ์ธ ๊ณต๊ฐ์ ๋๋ค.
- ์๋งจํฑ ์ฝํ(Semantic Entanglement): ์๋ก ๋ค๋ฅธ ๊ฐ๋ (์: ๊ณตํฌ์ ๋๋)์ด AI ๋ด๋ถ์์ ์ ๋๋ก ๋ถ๋ฆฌ๋์ง ์๊ณ ์์ผ ์๋ ํ์์ ๋งํฉ๋๋ค.
- LoRA(Low-Rank Adaptation): ๊ฑฐ๋ํ AI ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ฌํ์ต์ํค์ง ์๊ณ , ์ ์ ์์ ๋ฐ์ดํฐ๋ก ํจ์จ์ ์ผ๋ก ํน์ ๊ธฐ๋ฅ๋ง ํ๋ํ๋ ๊ธฐ์ ์ ๋๋ค.
- ํ๋ก์ฐ ๋งค์นญ(Flow Matching): ๋ ๋ฐ์ดํฐ ๋ถํฌ ์ฌ์ด์ ํ๋ฅ ๊ฒฝ๋ก๋ฅผ ํ์ตํ์ฌ ์ํ๋ง ์๋๋ฅผ ๋์ด๋ ์์ฑ ๋ชจ๋ธ ํ์ต ๋ฐฉ๋ฒ์ ์ผ์ข ์ ๋๋ค.
- MMDiT(Multi-Modal Diffusion Transformer): ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ ๋ด์์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋ถ๋ฆฌํ์ฌ ๋ค๋ฃจ๋ ์ต์ ํ์ฐ ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋๋ค(์ฃผ๋ก Flux ๋ชจ๋ธ์์ ์ฌ์ฉ๋จ).
- ๋์กฐ ํ์ต(Contrastive Learning): ์๋ก ๋น์ทํ ๊ฒ์ ๊ฐ๊น๊ฒ, ๋ค๋ฅธ ๊ฒ์ ๋ฉ๊ฒ ๋ฐฐ์นํ์ฌ ํํ๋ ฅ์ ๋์ด๋ ์๊ธฐ ์ง๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MinerU-Diffusion: Rethinking Documeโฆ | DD-051 |
| ๐ฅ | Omni-WorldBench: Towards a Compreheโฆ | DD-052 |
| ๐ฅ | Speed by Simplicity: A Single-Streaโฆ | DD-053 |
| 4. | PixelSmile: Toward Fine-Grained Facโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | Astrolabe: Steering Forward-Processโฆ | DD-055 |
๐ ์์ฑ์ผ: 2026-03-29 | ๐ค GLM-4.7 Deep Dive