โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-052 Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

arXiv: 2603.22212 ๊ธฐ๊ด€: alibaba-inc Upvotes: 122 | Comments: 9 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: Omni-WorldBench

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์›”๋“œ ๋ชจ๋ธ ํ‰๊ฐ€๋Š” ๋‹จ์ˆœํžˆ ์˜์ƒ์ด ์–ผ๋งˆ๋‚˜ ์„ ๋ช…ํ•œ์ง€, ํ˜น์€ ํ…์ŠคํŠธ ์„ค๋ช…๊ณผ ์ž˜ ์ผ์น˜ํ•˜๋Š”์ง€์—๋งŒ ์ง‘์ค‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋งˆ์น˜ ์š”๋ฆฌ์‚ฌ๋ฅผ ํ‰๊ฐ€ํ•  ๋•Œ ์Œ์‹์˜ ๋ง›์€ ๋ณด์ง€ ์•Š๊ณ  ์ ‘์‹œ๋งŒ ์˜ˆ์œ์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์›”๋“œ ๋ชจ๋ธ์ด ๋ฌผ๋ฆฌ ๋ฒ•์น™๊ณผ ์ธ๊ณผ ๊ด€๊ณ„๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ดํ•ดํ•˜๊ณ  ์žˆ๋Š”์ง€, ์ฆ‰ ์‚ฌ์šฉ์ž์˜ ํ–‰๋™์— ๋Œ€ํ•ด ์„ธ์ƒ์ด ์–ผ๋งˆ๋‚˜ ํ•ฉ๋ฆฌ์ ์œผ๋กœ ๋ฐ˜์‘ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ์ตœ์ดˆ์˜ ํฌ๊ด„์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ž๋™์ฐจ ๋””์ž์ธ vs ์šด์ „ ์‹œํ—˜

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์„ ์ดํ•ดํ•˜๋ ค๋ฉด ์ž๋™์ฐจ ๊ฐœ๋ฐœ ๊ณผ์ •์„ ๋– ์˜ฌ๋ฆฌ๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€์˜ ํ‰๊ฐ€ ๋ฐฉ์‹์€ ์ž๋™์ฐจ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋ฉ‹์ง€๊ฒŒ ์ƒ๊ฒผ๋Š”์ง€, ๋ฐ”ํ€ด๊ฐ€ ๋‘ฅ๊ทผ์ง€(์˜์ƒ ํ’ˆ์งˆ, ์ •์  ์ผ์น˜)๋งŒ ๊ฒ€์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ์ง„์งœ๋กœ ์›ํ•˜๋Š” ๊ฒƒ์€ ๋‚ด๊ฐ€ ํ•ธ๋“ค์„ ๊บพ์„ ๋•Œ ์ž๋™์ฐจ๊ฐ€ ์•ˆ์ „ํ•˜๊ฒŒ ๋Œ์•„๊ฐ€๋Š”๊ฐ€(์ƒํ˜ธ์ž‘์šฉ ๋ฐ˜์‘)์ž…๋‹ˆ๋‹ค. Omni-WorldBench๋Š” ์›”๋“œ ๋ชจ๋ธ์ด๋ผ๋Š” ์ž๋™์ฐจ์— ๋Œ€ํ•ด ์šด์ „ ์‹œํ—˜์„ ๋ณด์—ฌ์ฃผ๋Š” ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์—๊ฒŒ โ€œ๊ณต์„ ๋˜์ ธ๋ผโ€๋ผ๊ณ  ๋ช…๋ นํ–ˆ์„ ๋•Œ, ๋‹จ์ˆœํžˆ ๊ณต์ด ๋‚˜๊ฐ€๋Š” ์˜์ƒ์„ ๊ทธ๋ ค๋‚ด๋Š” ๊ฒƒ์„ ๋„˜์–ด์„œ, ์ค‘๋ ฅ์˜ ์˜ํ–ฅ์„ ๋ฐ›๊ณ  ๋ฐ”๋‹ฅ์— ๋ถ€๋”ชํ˜€ ํŠ€์–ด ์˜ค๋ฅด๋Š” ๋ฌผ๋ฆฌ์  ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ฒŒ ๋ฌ˜์‚ฌํ•˜๋Š”์ง€๋ฅผ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค.

์ƒํ˜ธ์ž‘์šฉ์˜ 3๋‹จ๊ณ„ ๋‚œ์ด๋„ (Omni-WorldSuite)

์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์ƒํ˜ธ์ž‘์šฉ์˜ ๋‚œ์ด๋„๋ฅผ 3๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ๋ชจ๋ธ์„ ๊ณ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. 1๋‹จ๊ณ„๋Š” ํ˜ผ์ž์„œ ํ•˜๋Š” ํ–‰๋™(์˜ˆ: ์‚ฌ๋žŒ์ด ํŒ”์„ ํ”๋“ ๋‹ค)์ž…๋‹ˆ๋‹ค. ์ฃผ๋ณ€์— ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š์œผ๋‹ˆ ๋ชจ๋ธ์ด ๋”ฐ๋ผํ•˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. 2๋‹จ๊ณ„๋Š” ๊ตญ์ง€์ ์ธ ์ƒํ˜ธ์ž‘์šฉ(์˜ˆ: ๊ณต์„ ๋ฒฝ์— ๋˜์ง„๋‹ค)์œผ๋กœ, ๋‘ ๋ฌผ์ฒด ๊ฐ„์˜ ์ถฉ๋Œ๊ณผ ๋ฐ˜์‘์„ ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์–ด๋ ค์šด 3๋‹จ๊ณ„๋Š” ์ „์—ญ์ ์ธ ๋ณ€ํ™”(์˜ˆ: ๋„๋ฏธ๋…ธ๋ฅผ ์“ฐ๋Ÿฌ๋œจ๋ฆฐ๋‹ค)์ž…๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ํ–‰๋™์ด ์—ฐ์‡„ ๋ฐ˜์‘์„ ์ผ์œผ์ผœๆ•ดไธช ํ™˜๊ฒฝ์„ ๋ฐ”๊พธ๋Š” ๋ณต์žกํ•œ ์ƒํ™ฉ์„ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

AI ์‹ฌํŒ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ (Omni-Metric)

์‚ฌ๋žŒ์ด ์ผ์ผ์ด ์˜์ƒ์„ ๋ณด๊ณ  ํ‰๊ฐ€ํ•˜๋ฉด ๋„ˆ๋ฌด ๋А๋ฆฌ๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ญ๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ €์ž๋“ค์€ โ€˜AI ์‹ฌํŒโ€™์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ์‹œ์Šคํ…œ์€ ์ƒ์„ฑ๋œ ์˜์ƒ์—์„œ ๋ฌผ์ฒด์˜ ๊ถค์ ์„ ์ถ”์ ํ•˜๊ณ (Object Trajectories), ๋ฌผ์ฒด์˜ ์›€์ง์ž„ ์ •๋„๋ฅผ ๋ถ„์„ํ•˜๋ฉฐ(Optical Flow), ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ์ƒํ™ฉ์˜ ๋…ผ๋ฆฌ์  ํƒ€๋‹น์„ฑ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์‹ฌํŒ์ด ๊ฒฝ๊ธฐ ์žฅ๋ฉด์„ ์Šฌ๋กœ์šฐ ๋ชจ์…˜์œผ๋กœ ๋Œ๋ ค๋ณด๋ฉฐ ํŒŒ์šธ์„ ์žก์•„๋‚ด๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹จ์ˆœํžˆ ์˜์ƒ์ด ์˜ˆ์œ์ง€๋ฅผ ๋– ๋‚˜, ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ์ง€ํ‚ค๋ฉด์„œ ํ–‰๋™์˜ ๊ฒฐ๊ณผ๊ฐ€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ด์–ด์กŒ๋Š”์ง€๋ฅผ ์ ์ˆ˜๋กœ ๋งค๊น๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์š”์•ฝ

๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ํ‰๊ฐ€ ์ง€ํ‘œ์ธ โ€˜AgenticScoreโ€™๋Š” ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€ ์ถ•์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, โ€˜์ƒ์„ฑ๋œ ์˜์ƒ์˜ ํ’ˆ์งˆ(Generated Video Quality)โ€˜๋กœ ๊ธฐ์กด ๋ฐฉ์‹๋Œ€๋กœ ํ™”์งˆ๊ณผ ๋™์  ์‚ฌ์‹ค์„ฑ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, โ€˜์นด๋ฉ”๋ผ-๊ฐ์ฒด ์ œ์–ด ๊ฐ€๋Šฅ์„ฑ(Camera-Object Controllability)โ€˜์€ ์นด๋ฉ”๋ผ๊ฐ€ ํ”๋“ค๋ฆฌ๋”๋ผ๋„ ๋ฌผ์ฒด์˜ ์œ„์น˜๊ฐ€ ์ผ๊ด€๋˜๊ฒŒ ์œ ์ง€๋˜๋Š”์ง€ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, ๊ฐ€์žฅ ์ค‘์š”ํ•œ โ€˜์ƒํ˜ธ์ž‘์šฉ ํšจ๊ณผ์˜ ์ถฉ์‹ค๋„(Interaction Effect Fidelity)โ€˜๋Š” ์•ž์„œ ์„ค๋ช…ํ•œ ๋ฌผ๋ฆฌ ๋ฒ•์น™ ์ค€์ˆ˜์™€ ์ธ๊ณผ์  ์ผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋‚˜?

์ €์ž๋“ค์€ Omni-WorldBench๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ˜„์žฌ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ์•Œ๋ ค์ง„ ์—ฌ๋Ÿฌ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ ๋ฐ ์›”๋“œ ๋ชจ๋ธ๋“ค์„ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ž์œจ ์ฃผํ–‰, ๋กœ๋ด‡ ๊ณตํ•™, ๊ฒŒ์ž„ ์—์ด์ „ํŠธ ๋“ฑ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์ตœ์‹  ๋ชจ๋ธ๋“ค์„ ๋Œ€์ƒ์œผ๋กœ 1๋‹จ๊ณ„(๋‹จ์ผ ๊ฐ์ฒด)๋ถ€ํ„ฐ 3๋‹จ๊ณ„(์ „์—ญ ํ™˜๊ฒฝ ๋ณ€ํ™”)๊นŒ์ง€์˜ ๋‹ค์–‘ํ•œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•œ ๋ฐ˜์‘์„ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ์˜ ์ฐจ์ด

ํฅ๋ฏธ๋กœ์šด ์ ์€ ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ์—์„œ๋Š” ์ ์ˆ˜๊ฐ€ ๋†’์•˜๋˜ ๋ชจ๋ธ๋“ค๋„ Omni-WorldBench์—์„œ๋Š” ํ˜•ํŽธ์—†๋Š” ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์˜์ƒ์€ ์•„์ฃผ ๊ณ ํ’ˆ์งˆ๋กœ ์ƒ์„ฑํ•˜์ง€๋งŒ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋ง๋„ ์•ˆ ๋˜๋Š” ์›€์ง์ž„์„ ๋ณด์˜€๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ปต์„ ์Ÿ์•˜๋Š”๋ฐ ๋ฌผ์ด ํ๋ฅด์ง€ ์•Š๊ฑฐ๋‚˜, ๊ณต์„ ๋˜์กŒ๋Š”๋ฐ ์ค‘๋ ฅ์„ ๋ฌด์‹œํ•˜๊ณ  ์šฐ์ฃผ๋ฅผ ๋‚ ์•„๊ฐ€๋Š” ๊ฒฝ์šฐ๋“ค์ด ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ˜„์žฌ ์›”๋“œ ๋ชจ๋ธ๋“ค์ด โ€˜์ฐฉ์‹œโ€™๋ฅผ ์ผ์œผํ‚ฌ ์ •๋„๋กœ ํ™”๋ คํ•œ ์˜์ƒ์€ ๋งŒ๋“ค์ง€๋งŒ, ์„ธ์ƒ์˜ ๊ทœ์น™(๋ฌผ๋ฆฌ)์€ ์ œ๋Œ€๋กœ ๋ฐฐ์šฐ์ง€ ๋ชปํ–ˆ๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•ฉ๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

์ด ์—ฐ๊ตฌ์˜ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณผ๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์ธ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ชจ๋ธ์˜ ๋ถ€์‹คํ•จ์„ ์ ๋ฐœํ•˜๋Š” โ€˜๊ฐ•๋ ฅํ•œ ์‹œํ—˜์ง€โ€™๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ โ€˜AgenticScoreโ€™๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ์ƒํ˜ธ์ž‘์šฉ ์ˆ˜์ค€์ด ๋†’์•„์งˆ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง„๋‹ค๋Š” ๊ฒƒ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํ–ฅํ›„ ์›”๋“œ ๋ชจ๋ธ ๊ฐœ๋ฐœ์ž๋“ค์ด ๋‹จ์ˆœํžˆ ํ™”์งˆ์„ ๋†’์ด๋Š” ๊ฒƒ์—์„œ ๋ฒ—์–ด๋‚˜, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ˜ ํ•™์Šต(Physics-based Learning)์œผ๋กœ ๋ฐฉํ–ฅ์„ ํŠธ๋Š” ๋ฐ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

ํ˜„์žฌ์˜ Omni-WorldBench๋Š” ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์™€ ์ดˆ๊ธฐ ์ด๋ฏธ์ง€๋ฅผ ์ฃผ๋กœ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๋ณต์žกํ•œ ๋ฌผ๋ฆฌ ์ƒํ˜ธ์ž‘์šฉ(์˜ˆ: ์œ ์ฒด ์—ญํ•™, ๋ถ€๋“œ๋Ÿฌ์šด ๋ณ€ํ˜• ๋“ฑ)์„ ์™„๋ฒฝํ•˜๊ฒŒ ๋‹ค๋ฃจ๊ธฐ์—๋Š” ์•„์ง ๋ฐ์ดํ„ฐ์…‹์ด ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ‰๊ฐ€ ๊ณผ์ •์—์„œ ์‚ฌ์šฉํ•˜๋Š” VLM(๋น„์ „-์–ธ์–ด ๋ชจ๋ธ) ์ž์ฒด๋„ ํ™˜๊ฐ(Hallucination) ํ˜„์ƒ์ด ์žˆ์„ ์ˆ˜ ์žˆ์–ด, ๊ฐ€๋”์€ ํ‹€๋ฆฐ ํ‰๊ฐ€๋ฅผ ๋‚ด๋ฆด ์œ„ํ—˜์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋” ๋‹ค์–‘ํ•œ ๋ฌผ๋ฆฌ ์—”์ง„ ๊ธฐ๋ฐ˜์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ ์ž์ฒด๋ฅผ ๋” ์ •๊ตํ•˜๊ฒŒ ๋ณด์ •ํ•˜์—ฌ VLM์ด ํ‰๊ฐ€ํ•  ๋•Œ ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ๋” ์—„๊ฒฉํ•˜๊ฒŒ ์ ์šฉํ•˜๋„๋ก ๊ฐœ์„ ํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ถ๊ทน์ ์œผ๋กœ๋Š” ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹ค์ œ ์„ผ์„œ ๋ฐ์ดํ„ฐ๋‚˜ ์ œ์–ด ์‹ ํ˜ธ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š” 4D ํ™˜๊ฒฝ์—์„œ์˜ ํ‰๊ฐ€๋กœ ํ™•์žฅ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ?

์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ ๊ฐœ๋ฐœ์‚ฌ์™€ ์ธ๊ณต์ง€๋Šฅ ๋กœ๋ด‡์„ ๋งŒ๋“œ๋Š” ๊ธฐ์—…์— ์ฆ‰์‹œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋„๋กœ๋‚˜ ๊ณต์žฅ์— ๋กœ๋ด‡์„ ํˆฌ์ž…ํ•˜๊ธฐ ์ „์—, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ํ•ด๋‹น ์›”๋“œ ๋ชจ๋ธ์ด ์ƒํ™ฉ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๋Š” โ€˜์ž๊ฒฉ ์‹œํ—˜โ€™์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ฒŒ์ž„ ๊ฐœ๋ฐœ ์ชฝ์—์„œ๋Š” NPC(๋น„ํ”Œ๋ ˆ์ด์–ด ์บ๋ฆญํ„ฐ)๊ฐ€ ๋ฌผ๋ฆฌ ๋ฒ•์น™์„ ์–ด๊ธฐ์ง€ ์•Š๊ณ  ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ”Œ๋ ˆ์ด์–ด์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๋„๊ตฌ๋กœ ์“ฐ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ๋™ํ•˜๋ ค๋ฉด ์ƒ๋‹นํ•œ ์—ฐ์‚ฐ ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์šฐ์„  ๊ณ ํ’ˆ์งˆ์˜ ์˜์ƒ์„ ์ƒ์„ฑํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๊ณ ์‚ฌ์–‘ GPU(์˜ˆ: A100/H100 ํด๋Ÿฌ์Šคํ„ฐ)๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํ‰๊ฐ€ ๋‹จ๊ณ„์—์„œ SAM(Segment Anything Model), RAFT, GroundingDINO ๋“ฑ ๋‹ค์–‘ํ•œ ๋น„์ „ ๋ชจ๋ธ๊ณผ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ๋™์‹œ์— ์‹คํ–‰ํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๋งŽ์Šต๋‹ˆ๋‹ค. ํ…Œ์ŠคํŠธํ•  ๋ฐ์ดํ„ฐ์…‹ ์ž์ฒด์˜ ํฌ๊ธฐ๋„ ๋ฐฉ๋Œ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ถฉ๋ถ„ํ•œ ์Šคํ† ๋ฆฌ์ง€์™€ ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•์ด ์š”๊ตฌ๋ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ์›”๋“œ ๋ชจ๋ธ(World Model) ํ™˜๊ฒฝ์˜ ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๊ณ  ๋ฏธ๋ž˜๋ฅผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•  ์ˆ˜ ์žˆ๋Š” AI ๋ชจ๋ธ๋กœ, ์ฃผ๋กœ ๊ฐ•ํ™” ํ•™์Šต์ด๋‚˜ ๊ณ„ํš(Planning)์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ(Video Generation Model) ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ์ž…๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋™์˜์ƒ์„ ํ•ฉ์„ฑํ•ด๋‚ด๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค(์˜ˆ: Sora, Gen-2).

  • ๊ด‘ํ•™ ํ๋ฆ„(Optical Flow) ๋น„๋””์˜ค ๋‚ด์—์„œ ๊ฐ ํ”ฝ์…€์ด ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ์–ผ๋งˆ๋‚˜ ์ด๋™ํ–ˆ๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์›€์ง์ž„ ๋ฒกํ„ฐ ํ•„๋“œ์ž…๋‹ˆ๋‹ค.

  • ์„ธ๋ถ„ํ™”(Segmentation) ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค์—์„œ ์‚ฌ๋žŒ, ์ž๋™์ฐจ, ๋ฐฐ๊ฒฝ ๋“ฑ ๊ฐ ๊ฐ์ฒด๋ฅผ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ๋ถ„๋ฆฌํ•ด๋‚ด๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

  • FID ๋ฐ FVD(Frรฉchet Inception Distance / Video Distance) ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋‚˜ ๋น„๋””์˜ค๊ฐ€ ์‹ค์ œ ๋ฐ์ดํ„ฐ์™€ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ํ’ˆ์งˆ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.

  • ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM, Vision-Language Model) ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ๋กœ, ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ๋‚ด์šฉ์„ ์„ค๋ช…ํ•˜๊ฑฐ๋‚˜ ์งˆ๋ฌธ์— ๋‹ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ธ๊ณผ์  ์ผ๊ด€์„ฑ(Causal Consistency) ๊ฒฐ๊ณผ๊ฐ€ ์›์ธ์— ์˜ํ•ด ๋…ผ๋ฆฌ์ ์œผ๋กœ ์„ค๋ช…๋  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, โ€˜ํ–‰๋™ A๊ฐ€ ๋ฐœ์ƒํ•˜๋ฉด ๋ฐ˜๋“œ์‹œ ๊ฒฐ๊ณผ B๊ฐ€ ๋”ฐ๋ฅธ๋‹คโ€™๋Š” ๊ด€๊ณ„๊ฐ€ ์œ ์ง€๋˜๋Š” ์„ฑ์งˆ์ž…๋‹ˆ๋‹ค.


๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MinerU-Diffusion: Rethinking Documeโ€ฆDD-051
๐ŸฅˆOmni-WorldBench: Towards a Compreheโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰Speed by Simplicity: A Single-Streaโ€ฆDD-053
4.PixelSmile: Toward Fine-Grained Facโ€ฆDD-054
5.Astrolabe: Steering Forward-Processโ€ฆDD-055

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-29 | ๐Ÿค– GLM-4.7 Deep Dive