โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-041 Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

arXiv: 2603.03143 ๊ธฐ๊ด€: AMAP-ML Upvotes: 136 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


๋…ผ๋ฌธ ๋ถ„์„: Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ 3D ์žฅ๋ฉด ํŽธ์ง‘ ๊ธฐ์ˆ ์€ ๊ฐ•๋ ฅํ•œ 2D ํŽธ์ง‘ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ์—ฌ๋Ÿฌ ์‹œ์  ๊ฐ„์˜ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐ ์‹คํŒจํ•˜๊ฑฐ๋‚˜, ํ•™์Šต์„ ์œ„ํ•œ ์ง์ด ์ง€์–ด์ง„ 3D ๋ฐ์ดํ„ฐ์˜ ์ ˆ๋Œ€ ๋ถ€์กฑ์œผ๋กœ ์ธํ•ด ์ง€๋„ ํ•™์Šต(Supervised Fine-tuning)์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ 3D ์ผ๊ด€์„ฑ์„ ๊ฒ€์ฆํ•˜๋Š” ๊ฒƒ์€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ ์— ์ฐฉ์•ˆํ•˜์—ฌ, ๋ณ„๋„์˜ ๋ฐ์ดํ„ฐ์…‹ ์—†์ด 3D ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(VGGT)์„ ๋ณด์ƒ ๋ชจ๋ธ๋กœ ํ™œ์šฉํ•ด 2D ํŽธ์ง‘ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ 3D ์ผ๊ด€์„ฑ์„ ํ•™์Šตํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ(RL3DEdit)๋ฅผ ์ œ์‹œํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์‹ค๋ ฅ์€ ์ข‹์œผ๋‚˜ 3D ๊ฐ๊ฐ์ด ์—†๋Š” ํ™”๊ฐ€์™€ ๊ฐ๋…๊ด€โ€

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์ƒํ™ฉ์„ ํ•œ ๋ช…์˜ ๋›ฐ์–ด๋‚œ ํ™”๊ฐ€(2D ํŽธ์ง‘ ๋ชจ๋ธ)์— ๋น„์œ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ํ™”๊ฐ€๋Š” ์‚ฌ์ง„์„ ์ฃผ๋ฉด ๋ฒฝ์— ๋ฌธ์„ ๊ทธ๋ ค ๋„ฃ๋Š” ํ€„๋ฆฌํ‹ฐ๋Š” ๋งค์šฐ ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฐฉ์„ ์—ฌ๋Ÿฌ ๊ฐ๋„์—์„œ ์ฐ์€ ์‚ฌ์ง„ 10์žฅ์„ ๋™์‹œ์— ์ค˜์„œ โ€œ๊ฐ๋„๋งˆ๋‹ค ๋ฌธ ์œ„์น˜๊ฐ€ ๋”ฑ ๋งž๊ฒŒ ๊ทธ๋ ค์ ธ ์žˆ์–ด์•ผ ํ•ดโ€๋ผ๊ณ  ํ•˜๋ฉด, ํ™”๊ฐ€๋Š” ๊ฐ ์‚ฌ์ง„์„ ๋”ฐ๋กœ ๋ณด๊ธฐ ๋•Œ๋ฌธ์— ๋ฌธ์˜ ์œ„์น˜๊ฐ€ ์ œ๊ฐ๊ฐ์ธ ์—‰๋ง์ธ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ๊ธฐ์กด 2D ๋ชจ๋ธ์ด ๊ฐ€์ง„ ๋‹ค์‹œ์  ๋ถˆ์ผ์น˜(Multi-view Inconsistency) ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

๊ธฐ์กด ๋ฐฉ์‹(์ง€๋„ ํ•™์Šต)์€ โ€œ์ •๋‹ต์ด ๊ทธ๋ ค์ง„ 3D ์‚ฌ์ง„ 1๋งŒ ์žฅโ€์„ ๋ณด์—ฌ์ฃผ๋ฉฐ ๊ฐ€๋ฅด์น˜๋ ค ํ–ˆ์ง€๋งŒ, ๊ทธ๋Ÿฐ ์ž๋ฃŒ๋Š” ๊ตฌํ•˜๊ธฐ๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์˜ ํ•ด๊ฒฐ์ฑ…์€ โ€˜์—„๊ฒฉํ•œ ๊ฐ๋…๊ด€(VGGT)โ€˜์„ ๊ณ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ๋…๊ด€์€ ๊ทธ๋ฆผ ์‹ค๋ ฅ์€ ์—†์ง€๋งŒ, 3D ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ โ€œ์ด ๊ฐ๋„์˜ ๋ฌธ๊ณผ ์ € ๊ฐ๋„์˜ ๋ฌธ์ด ๊ณต๊ฐ„์ ์œผ๋กœ ์—ฐ๊ฒฐ๋˜์ง€ ์•Š์•˜๋‹คโ€๊ณ  ์ •ํ™•ํžˆ ์ง€์ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ™”๊ฐ€๋Š” ์—ฌ๋Ÿฌ ๋ฒˆ ์‹œ๋„๋ฅผ ํ•ด์„œ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๊ณ , ๊ฐ๋…๊ด€์˜ ์ ์ˆ˜(๋ณด์ƒ)๋ฅผ ๋ฐ›์œผ๋ฉฐ ์ž์‹ ์˜ ๊ทธ๋ฆผ ์Šคํƒ€์ผ์„ ์ˆ˜์ •ํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ํ™”๊ฐ€๋Š” ์ •๋‹ต์ง€๋ฅผ ๋ณด์ง€ ์•Š์•„๋„ ๊ฐ๋…๊ด€์˜ ํ”ผ๋“œ๋ฐฑ๋งŒ์œผ๋กœ 3D ๊ณต๊ฐ„์—์„œ ๋ง์ด ๋˜๋Š” ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๋Š” ๋ฒ•์„ ํ„ฐ๋“ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ๋ฐฉ์‹

1๋‹จ๊ณ„: ๋ Œ๋”๋ง ๋ฐ ํŽธ์ง‘ ์‹œ๋„ ๋จผ์ € ํŽธ์ง‘ํ•˜๊ณ ์ž ํ•˜๋Š” 3D ์ž์‚ฐ์„ 9๊ฐœ(M=9)์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์‹œ์ ์—์„œ ๋ Œ๋”๋งํ•ฉ๋‹ˆ๋‹ค. ์ด ์ด๋ฏธ์ง€๋“ค์„ 2D ํŽธ์ง‘ ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜์—ฌ ํŽธ์ง‘์„ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ํ™•๋ฅ ์  ์š”์†Œ(SDE)๋ฅผ ์ถ”๊ฐ€ํ•ด ๊ฐ™์€ ์ž…๋ ฅ์ด๋ผ๋„ ์กฐ๊ธˆ์”ฉ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ์ด ๋‚˜์˜ค๋„๋ก 16๋ฒˆ(Group Size=16) ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.

2๋‹จ๊ณ„: 3D ์ผ๊ด€์„ฑ ๊ฒ€์ฆ (๋ณด์ƒ ๊ณ„์‚ฐ) ๋‚˜์˜จ 16์„ธํŠธ์˜ ๊ฒฐ๊ณผ๋ฌผ๋“ค์„ 3D ๊ธฐ์ดˆ ๋ชจ๋ธ์ธ VGGT์— ๋„ฃ์Šต๋‹ˆ๋‹ค. VGGT๋Š” ๊ฒฐ๊ณผ๋ฌผ๋“ค์„ ๋ถ„์„ํ•ด ๋„ค ๊ฐ€์ง€ ํ•ญ๋ชฉ์˜ ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. ๊นŠ์ด ์ผ๊ด€์„ฑ, ์ž์„ธ(Pose) ์˜ค์ฐจ, ์ถ”์ (Tracking) ์ •ํ™•๋„, ๊ทธ๋ฆฌ๊ณ  ํŽธ์ง‘ ํ’ˆ์งˆ์ž…๋‹ˆ๋‹ค. ์ด ์ ์ˆ˜๋“ค์ด ํ•ฉ์ณ์ ธ ์ตœ์ข… ๋ณด์ƒ์ด ๋ฉ๋‹ˆ๋‹ค.

3๋‹จ๊ณ„: ๋ชจ๋ธ ์ตœ์ ํ™” (GRPO) ๊ณ„์‚ฐ๋œ ๋ณด์ƒ ์ ์ˆ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ GRPO(Group Relative Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ด 2D ํŽธ์ง‘ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ ์ˆ˜๊ฐ€ ๋†’์•˜๋˜ ์‹œ๋„๋“ค์˜ ํŒจํ„ด์„ ๋”ฐ๋ฅด๋„๋ก ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉฐ ๋ชจ๋ธ์€ ๋‹จ ํ•œ ๋ฒˆ์˜ ์ถ”๋ก ์œผ๋กœ๋„ ์—ฌ๋Ÿฌ ์‹œ์ ์ด ์ผ์น˜๋œ ๊ฒฐ๊ณผ๋ฌผ์„ ๋‚ด๋†“์„ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ (GRPO ์ ์šฉ)

์ด ๋…ผ๋ฌธ์€ ์ผ๋ฐ˜์ ์ธ ์ •์ฑ… ๊ทธ๋ผ๋””์–ธํŠธ๊ฐ€ ์•„๋‹ˆ๋ผ GRPO๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์ˆ˜์‹ $A^i = (R^i - \text{mean}({R^j})) / \text{std}({R^j})$๋Š” ๊ทธ๋ฃน ๋‚ด์˜ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ํ˜„์žฌ ๊ฒฐ๊ณผ๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์ข‹์€์ง€๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ ˆ๋Œ€์ ์ธ ์ ์ˆ˜๊ฐ€ ์ค‘์š”ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ฐ™์€ ์กฐ๊ฑด์—์„œ ์‹œ๋„ํ•œ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๋ฌผ๋ณด๋‹ค ๋” 3D ์ผ๊ด€์„ฑ์ด ์ž˜ ์ง€์ผœ์กŒ๋Š”์ง€๊ฐ€ ํ•™์Šต์˜ ํ•ต์‹ฌ ์‹ ํ˜ธ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ

์—ฐ๊ตฌ์ง„์€ IN2N, BlendedMVS, Mip-NeRF360 ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ด 8๊ฐœ์˜ ์žฅ๋ฉด์„ ์„ ์ •ํ•˜์—ฌ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. 3D ๋น„์ „ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์ด ๋ฐ์ดํ„ฐ์…‹๋“ค์€ ๋ณต์žกํ•œ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ์™€ ๋‹ค์–‘ํ•œ ํ…์Šค์ฒ˜๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์–ด ํŽธ์ง‘ ์ผ๊ด€์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ด 70๊ฐœ์˜ ํŽธ์ง‘ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 1,319๊ฐœ์˜ ํ•™์Šต ์ƒ˜ํ”Œ์„ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์„ฑ๋Šฅ

๊ธฐ์กด ์˜คํ”ˆ ์†Œ์Šค ์ตœ์ƒ์œ„ ๋ฐฉ๋ฒ•๋ก ์ธ DGE, EditSplat, GaussCtrl๊ณผ ๋น„๊ต ๋ถ„์„์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋˜ InstructPix2Pix ๋Œ€์‹  ์ตœ์‹  ๋ชจ๋ธ์ธ FLUX-Kontext๋ฅผ ๋ฐฑ๋ณธ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์žฌ๊ตฌํ˜„ํ•œ ๋’ค ์„ฑ๋Šฅ์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์— ์ œ์‹œ๋œ ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜ ํ…Œ์ด๋ธ”์€ ๋ฐœ์ทŒ๋ณธ์— ํฌํ•จ๋˜์ง€ ์•Š์•˜์œผ๋‚˜, ์ •์„ฑ์ , ์ •๋Ÿ‰์ ์œผ๋กœ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ๋“ค์ด ๊ฒช๋Š” โ€˜๊ธฐํ•˜ํ•™์  ๋ณ€ํ™” ์‹œ ๊นจ์ง ํ˜„์ƒโ€™์ด๋‚˜ โ€˜ํ๋ฆฟํ•œ ์•„ํ‹ฐํŒฉํŠธโ€™ ๋ฌธ์ œ๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

ํ•™์Šต ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ๊ตฌ์ฒด์ ์ธ ์„ค์ •์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์ „ ์—ฐ๊ตฌ์ธ Flow-GRPO๊ฐ€ 6-step ์ถ”๋ก ์„ ์‚ฌ์šฉํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, 3D ์ผ๊ด€์„ฑ์„ ์œ„ํ•ด ๋” ๋†’์€ ์ด๋ฏธ์ง€ ์ถฉ์‹ค๋„๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•˜๊ณ  12-step ์ถ”๋ก  ์„ค์ •์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ NVIDIA RTX A6000 GPU ํ•˜๋‚˜๋กœ ์•ฝ 42์‹œ๊ฐ„ ๋™์•ˆ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์—ฌ ์ถฉ๋ถ„ํžˆ ์‹ค๋ฌด์ ์ธ ์ˆ˜์ค€์˜ ํ•™์Šต ์‹œ๊ฐ„์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋‹จ์ผ ํŒจ์Šค(One-pass) ์ถ”๋ก ๋งŒ์œผ๋กœ๋„ ๊ณ ํ’ˆ์งˆ์˜ 3D ํŽธ์ง‘์ด ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„ ๋ฐ ์•”์‹œ์  ํ•œ๊ณ„

์ด ๋…ผ๋ฌธ์€ ์ฃผ๋กœ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ๊ณผ ์ •์„ฑ์ ์ธ ๊ฐœ์„ ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์–ด, ์ •๋Ÿ‰์  ์ง€ํ‘œ(PSNR, LPIPS ๋“ฑ)์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ๋ถ„์„์ด ์ œ๊ณต๋œ ํ…์ŠคํŠธ ๋‚ด์— ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ณด์ƒ ๋ชจ๋ธ์ธ VGGT์˜ ์‚ฌ์ „ ์ง€์‹(Prior)์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์—, VGGT๊ฐ€ ์•Œ์ง€ ๋ชปํ•˜๋Š” ๋งค์šฐ ์ƒ์†Œํ•œ ๋„๋ฉ”์ธ์ด๋‚˜ ๊ทน๋‹จ์ ์ธ ๊ธฐํ•˜ํ•™์  ๋ณ€ํ˜•์— ๋Œ€ํ•ด์„œ๋Š” ๋ณด์ƒ ์‹ ํ˜ธ๊ฐ€ ์ •ํ™•ํ•˜์ง€ ์•Š์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋” ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ 3D ์žฅ๋ฉด์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ณด์ƒ ๋ชจ๋ธ์„ ํƒ๊ตฌํ•˜๊ฑฐ๋‚˜, ํ˜„์žฌ 42์‹œ๊ฐ„์ด ์†Œ์š”๋˜๋Š” ํ•™์Šต ์‹œ๊ฐ„์„ ๋” ๋‹จ์ถ•ํ•˜์—ฌ ์‹ค์‹œ๊ฐ„ ํŽธ์ง‘ ํŒŒ์ดํ”„๋ผ์ธ์— ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉํ–ฅ์ด ๊ณ ๋ ค๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ˜„์žฌ 9๊ฐœ์˜ ์‹œ์ (M=9)์„ ๊ณ ์ •์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ ˆํ•˜์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋Š” ์—ฐ๊ตฌ๋„ ๊ฐ€๋Šฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ ์šฉ ๊ฐ€๋Šฅ ๋ถ„์•ผ

์ด ๊ธฐ์ˆ ์€ ์ฆ‰์‹œ AR/VR ์ฝ˜ํ…์ธ  ์ œ์ž‘ ํˆด, ๋ฉ”ํƒ€๋ฒ„์Šค ํ”Œ๋žซํผ, ๊ทธ๋ฆฌ๊ณ  3D ๊ฒŒ์ž„ ๊ฐœ๋ฐœ ํŒŒ์ดํ”„๋ผ์ธ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ ์กด์žฌํ•˜๋Š” 3D ๊ฒŒ์ž„ ๋งต์˜ ๋ถ„์œ„๊ธฐ๋ฅผ โ€œ๊ฒจ์šธโ€๋กœ ๋ฐ”๊พธ๊ฑฐ๋‚˜ ํŠน์ • ์˜ค๋ธŒ์ ํŠธ๋ฅผ ๋‹ค๋ฅธ ํ˜•ํƒœ๋กœ ๊ต์ฒดํ•ด์•ผ ํ•  ๋•Œ, ๊ฐ๋„๋งˆ๋‹ค ๊นจ์ง€์ง€ ์•Š๋Š” ์ผ๊ด€๋œ ํ…์Šค์ฒ˜๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•ด์ฃผ๋Š” ๊ฐ•๋ ฅํ•œ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ „์ž ์ƒ๊ฑฐ๋ž˜ ๋ถ„์•ผ์—์„œ๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ์ œํ’ˆ ์ƒ‰์ƒ์ด๋‚˜ ์žฌ์งˆ์„ ์ปค์Šคํ„ฐ๋งˆ์ด์ง•ํ•  ๋•Œ 3D๋กœ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒฝํ—˜์„ ํš๊ธฐ์ ์œผ๋กœ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ๋ฐฉ์‹์„ ๋„์ž…ํ•˜๋ ค๋ฉด ๊ณ ์‚ฌ์–‘์˜ GPU(NVIDIA RTX A6000๊ธ‰ ์ด์ƒ)๊ฐ€ ํ•„์ˆ˜์ ์ด๋ฉฐ, 3D Gaussian Splatting(3DGS) ๋ Œ๋”๋ง ํŒŒ์ดํ”„๋ผ์ธ๊ณผ FLUX์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ 2D ๋””ํ“จ์ „ ๋ชจ๋ธ์„ ๋™์‹œ์— ์šด์˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ธํ”„๋ผ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ LoRA(Low-Rank Adaptation)๋ฅผ ํ†ตํ•ด ํŒŒ์ธ ํŠœ๋‹์„ ์ง„ํ–‰ํ•˜๋ฏ€๋กœ, ๋งž์ถคํ˜• ํŽธ์ง‘ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•œ ์ถฉ๋ถ„ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋Šฅ๋ ฅ๋„ ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • 3D Gaussian Splatting (3DGS) ํฌ์ธํŠธ ํด๋ผ์šฐ๋“œ์˜ ๊ฐ ์ ์„ 3D ๊ฐ€์šฐ์‹œ์•ˆ์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ๊ณ ํ’ˆ์งˆ์˜ 3D ์žฅ๋ฉด์„ ๋ Œ๋”๋งํ•˜๋Š” ์ตœ์‹  ํ‘œํ˜„ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

  • Diffusion Model (๋””ํ“จ์ „ ๋ชจ๋ธ) ๋…ธ์ด์ฆˆ์—์„œ ์ ์ฐจ ์›ํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•ด ๋‚˜๊ฐ€๋Š” ์ƒ์„ฑํ˜• AI ๋ชจ๋ธ๋กœ, ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ์ด๋ฏธ์ง€๋ฅผ ํŽธ์ง‘ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • Reinforcement Learning (๊ฐ•ํ™” ํ•™์Šต) ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๊ธฐ๊ณ„ํ•™์Šต์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค.

  • Multi-view Consistency (๋‹ค์‹œ์  ์ผ๊ด€์„ฑ) 3D ์žฅ๋ฉด์„ ์—ฌ๋Ÿฌ ๊ฐ๋„์—์„œ ์ดฌ์˜ํ•˜๊ฑฐ๋‚˜ ๋ Œ๋”๋งํ•  ๋•Œ, ๋ชจ๋“  ์‹œ์ ์—์„œ ๋ฌผ์ฒด์˜ ๋ชจ์–‘, ์œ„์น˜, ์กฐ๋ช… ๋“ฑ์ด ๋…ผ๋ฆฌ์ ์œผ๋กœ ์ผ์น˜ํ•ด์•ผ ํ•˜๋Š” ์„ฑ์งˆ์ž…๋‹ˆ๋‹ค.

  • Policy Gradient / GRPO ๊ฐ•ํ™” ํ•™์Šต์—์„œ ์ •์ฑ…(Policy)์„ ์ง์ ‘ ์ตœ์ ํ™”ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, GRPO๋Š” ๊ทธ๋ฃน ๋‚ด ์ƒ˜ํ”Œ๋“ค์„ ์ƒ๋Œ€์ ์œผ๋กœ ๋น„๊ตํ•˜์—ฌ ๋ถ„์‚ฐ์„ ์ค„์ด๊ณ  ํšจ์œจ์„ ๋†’์ธ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

  • LoRA (Low-Rank Adaptation) ๊ฑฐ๋Œ€ํ•œ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์˜ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํŠœ๋‹ํ•˜๋Š” ๋Œ€์‹ , ์ ์€ ์ˆ˜์˜ ์ถ”๊ฐ€ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ•™์Šต์‹œ์ผœ ํšจ์œจ์ ์œผ๋กœ ๋ชจ๋ธ์„ ์ปค์Šคํ„ฐ๋งˆ์ด์ง•ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • VGGT ๋Œ€๋Ÿ‰์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ 3D ๊ธฐ์ดˆ ๋ชจ๋ธ๋กœ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํŽธ์ง‘๋œ ์ด๋ฏธ์ง€์˜ 3D ๊ธฐํ•˜ํ•™์  ์ •ํ™•๋„๋ฅผ ํŒ๋‹จํ•˜๋Š” ์‹ฌํŒ(๋ณด์ƒ ๋ชจ๋ธ) ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.


๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Geometry-Guided Reinforcement Learnโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆPenguin-VL: Exploring the Efficiencโ€ฆDD-042
๐Ÿฅ‰OpenClaw-RL: Train Any Agent Simplyโ€ฆDD-043
4.Lost in Stories: Consistency Bugs iโ€ฆDD-044
5.Holi-Spatial: Evolving Video Streamโ€ฆDD-045

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-15 | ๐Ÿค– GLM-4.7 Deep Dive