โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-046 Demystifing Video Reasoning

arXiv: 2603.16870 ๊ธฐ๊ด€: SenseNova Upvotes: 346 | Comments: 5 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


Demystifying Video Reasoning (๋…ผ๋ฌธ ๋ฆฌ๋ทฐ)

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ด ์‹œ๊ฐ„ ์ˆœ์„œ๋Œ€๋กœ ํ”„๋ ˆ์ž„(Frame)์„ ์ƒ์„ฑํ•˜๋ฉด์„œ ์ด์•ผ๊ธฐ๋ฅผ ํ’€์–ด๋‚˜๊ฐ€๋Š” โ€˜ํ”„๋ ˆ์ž„ ์—ฐ์‡„(Chain-of-Frames)โ€™ ๋ฐฉ์‹์œผ๋กœ ์ถ”๋ก ํ•œ๋‹ค๊ณ  ๋ฏฟ์–ด์™”์œผ๋‚˜, ์ด ๊ตฌ์กฐ์ ์ธ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋ฐํ˜€๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์˜ ์‹ค์ œ ์ถ”๋ก  ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ๋‹จ์ˆœํ•œ ์‹œ๊ฐ„ ์ˆœ์„œ๊ฐ€ ์•„๋‹ˆ๋ผ, ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” โ€˜๋””ํ“จ์ „ ๋‹จ๊ณ„(Diffusion Steps)โ€™ ๋‚ด์—์„œ ์ผ์–ด๋‚œ๋‹ค๋Š” โ€˜๋‹จ๊ณ„ ์—ฐ์‡„(Chain-of-Steps)โ€˜๋ผ๋Š” ํš๊ธฐ์ ์ธ ์‚ฌ์‹ค์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐœ๊ฒฌ์€ ๋น„๋””์˜ค ๋ชจ๋ธ์ด ์–ด๋–ป๊ฒŒ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š”์ง€ ๊ทธ ์›๋ฆฌ๋ฅผ ๊ทœ๋ช…ํ•จ์œผ๋กœ์จ, ํ–ฅํ›„ ๋” ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์˜ โ€˜๋‘๋‡Œ ์ž‘๋™ ๋ฐฉ์‹โ€™์ด ์šฐ๋ฆฌ์˜ ์ƒ๊ฐ๊ณผ ๋‹ค๋ฅด๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ํ†ต๋…์ธ โ€˜ํ”„๋ ˆ์ž„ ์—ฐ์‡„(Chain-of-Frames, CoF)โ€˜๋Š” ๋ชจ๋ธ์ด ์šฐ๋ฆฌ๊ฐ€ ์˜ํ™”๋ฅผ ๋ณด๋“ฏ์ด ์ฒซ ๋ฒˆ์งธ ์žฅ๋ฉด์„ ๋ณด๊ณ , ๊ทธ ๋‹ค์Œ ์žฅ๋ฉด์„ ๋ณด๋ฉฐ ์ˆœ์ฐจ์ ์œผ๋กœ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆฐ๋‹ค๊ณ  ๊ฐ€์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์€ ์ด๋ฅผ ๋ฐ˜๋ฐ•ํ•˜๋ฉฐ โ€˜๋‹จ๊ณ„ ์—ฐ์‡„(Chain-of-Steps, CoS)โ€˜๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์ผ์ƒ์ƒํ™œ ๋น„์œ : ๋ฏธ๋กœ ์ฐพ๊ธฐ ๊ทธ๋ฆผ ๊ทธ๋ฆฌ๊ธฐ

์ด๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ํ™”๊ฐ€๊ฐ€ ๋ฏธ๋กœ ์ฐพ๊ธฐ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฐ๋‹ค๊ณ  ์ƒ์ƒํ•ด ๋ด…์‹œ๋‹ค.

  • ๊ธฐ์กด ์ƒ๊ฐ (CoF): ํ™”๊ฐ€๊ฐ€ ์™ผ์ชฝ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™ํ•˜๋ฉฐ ๋ถ“์„ ๋†“๋Š” ์ˆœ์„œ๋Œ€๋กœ ๊ธธ์„ ์ฐพ์•„๊ฐ€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ค‘๊ฐ„์— ๊ธธ์„ ์ž˜๋ชป ๊ทธ๋ฆฌ๋ฉด ๋๊นŒ์ง€ ๊ฐ€์•ผ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด ๋…ผ๋ฌธ์˜ ๋ฐœ๊ฒฌ (CoS): ํ™”๊ฐ€๊ฐ€ ๋จผ์ € ์Šค์ผ€์น˜๋ฅผ ํ•  ๋•Œ์ž…๋‹ˆ๋‹ค. ์ฒ˜์Œ์—๋Š” ํ๋ฆฟํ•˜๊ฒŒ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ ๊ธธ(ํ›„๋ณด ํ•ด)์„ ๋™์‹œ์— ๊ฒน์ณ์„œ ๊ทธ๋ฆฝ๋‹ˆ๋‹ค. ์ฆ‰, โ€œ์ด ๊ธธ์ผ ์ˆ˜๋„ ์žˆ๊ณ , ์ € ๊ธธ์ผ ์ˆ˜๋„ ์žˆ๊ณ โ€ ํ•˜๋ฉฐ ์—ฌ๋Ÿฌ ๊ฐ€๋Šฅ์„ฑ์„ ํ™”๋ฉด์— ํŽผ์ณ๋†“์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ๋ฆผ์„ ๊นจ๋—์ด ๋‹ค๋“ฌ์–ด ๊ฐ€๋Š” ๊ณผ์ •(๋””๋…ธ์ด์ง• ๋‹จ๊ณ„)์—์„œ, ๋ง‰๋‹ค๋ฅธ ๊ธธ์„ ์ง€์šฐ๊ณ (Correction), ์˜ฌ๋ฐ”๋ฅธ ๊ธธ๋งŒ ๋‚จ๊ฒจ ์ตœ์ข…์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์„ ์™„์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ค‘์š”ํ•œ ์ ์€ โ€˜๊ทธ๋ฆผ์ด ์™„์„ฑ๋˜์–ด๊ฐ€๋Š” ์‹œ๊ฐ„โ€™์ด ๋ฐ”๋กœ ์ถ”๋ก ์ด ์ผ์–ด๋‚˜๋Š” ์‹œ๊ฐ„์ด๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

๋ชจ๋ธ์ด ๋ฏธ๋กœ๋ฅผ ํ‘ธ๋Š” ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.

  1. ์ดˆ๊ธฐ ๋‹จ๊ณ„(Initial Steps): ๋ชจ๋ธ์€ ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ์ƒํƒœ์—์„œ ๋ฏธ๋กœ๋ฅผ ํ†ต๊ณผํ•  ์ˆ˜ ์žˆ๋Š” ์ˆ˜๋งŽ์€ ๊ฐ€๋Šฅํ•œ ๊ฒฝ๋กœ๋ฅผ ๋™์‹œ์— ์ƒ์ƒํ•˜๋ฉฐ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ๋Š” ์ž˜๋ชป๋œ ๊ธธ๋„ ๋งŽ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ์ค‘๊ฐ„ ๋‹จ๊ณ„(Middle Steps): ๋””๋…ธ์ด์ง•(Denoising)์ด ์ง„ํ–‰๋˜๋ฉด์„œ ๋ชจ๋ธ์€ ํ™•๋ฅ ์ด ๋‚ฎ์€ ๊ฒฝ๋กœ, ์ฆ‰ ๋ง‰๋‹ค๋ฅธ ๊ธธ์ด๋‚˜ ๋…ผ๋ฆฌ์ ์œผ๋กœ ํ‹€๋ฆฐ ๊ฒฝ๋กœ๋ฅผ ์„œ์„œํžˆ ์ง€์›Œ๋ฒ„๋ฆฝ๋‹ˆ๋‹ค(Pruning). ๋งˆ์น˜ ํ™”๊ฐ€๊ฐ€ ์—ฐํ•„ ์ž๊ตญ์„ ์ง€์šฐ๊ฐœ๋กœ ์ง€์šฐ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.
  3. ์ตœ์ข… ๋‹จ๊ณ„(Final Steps): ๋…ธ์ด์ฆˆ๊ฐ€ ๊ฑฐ์˜ ์‚ฌ๋ผ์ง„ ์‹œ์ ์—๋Š” ์˜ค์ง ํ•˜๋‚˜์˜ ์ •๋‹ต ๊ฒฝ๋กœ๋งŒ ์„ ๋ช…ํ•˜๊ฒŒ ๋‚จ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์ด ์ตœ์ข… ๊ฒฐ๊ณผ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

์ด ๊ณผ์ •์—์„œ ๋ชจ๋ธ์€ ์ž‘์—… ๊ธฐ์–ต(Working Memory)์„ ํ™œ์šฉํ•ด ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๊ณ , ์Šค์Šค๋กœ ํ‹€๋ฆฐ ๊ฒฝ๋กœ๋ฅผ ์ˆ˜์ •(Self-Correction)ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ๋ชจ๋“  ์ถ”๋ก ์€ ํ”„๋ ˆ์ž„์ด ๋„˜์–ด๊ฐ€๋Š” ์‹œ๊ฐ„์ด ์•„๋‹ˆ๋ผ, ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€๊ฐ€ ์„ ๋ช…ํ•ด์ง€๋Š” ๋””ํ“จ์ „ ๋‹จ๊ณ„(Timestep) ๋‚ด๋ถ€์—์„œ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜

๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•˜๋Š” ํ•ต์‹ฌ์€ ์ถ”๋ก  ๊ณผ์ •์ด ํ”„๋ ˆ์ž„ ์ถ•์ด ์•„๋‹ˆ๋ผ ๋””ํ“จ์ „ ๋‹จ๊ณ„ ์ถ•์„ ๋”ฐ๋ผ ๋ฐœ์ƒํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ˆ˜์‹์ ์œผ๋กœ ํ‘œํ˜„ํ•˜์ž๋ฉด, ๋ชจ๋ธ์˜ ์ถ”๋ก ่ƒฝๅŠ› $R$์€ ํ”„๋ ˆ์ž„ ์ธ๋ฑ์Šค $i$๊ฐ€ ์•„๋‹Œ, ๋””๋…ธ์ด์ง• ํƒ€์ž„์Šคํ… $t$์— ๊ฐ•ํ•˜๊ฒŒ ์˜์กดํ•ฉ๋‹ˆ๋‹ค.

$$ R \approx f(\text{Denoising Steps } t) \gg g(\text{Frames } i) $$

์ฆ‰, ๋ชจ๋ธ์€ $t=1$์—์„œ $t=T$๋กœ ๊ฐ€๋Š” ๊ณผ์ •์—์„œ ๋‹ต์„ ์ฐพ์•„๊ฐ€๋Š” ๊ฒƒ์ด์ง€, Frame 1์—์„œ Frame 2๋กœ ๋„˜์–ด๊ฐ€๋Š” ๊ณผ์ •์—์„œ ๋‹ต์„ ์ฐพ๋Š” ๊ฒƒ์ด ์•„๋‹™๋‹ˆ๋‹ค.

3. ์‹ค๏ฟฝ๏ฟฝํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ €์ž๋“ค์€ ๋น„๋””์˜ค ์ถ”๋ก  ๋ฐ์ดํ„ฐ์…‹๊ณผ ์˜คํ”ˆ์†Œ์Šค ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์ด ๊ฐ€์„ค์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ์ƒํƒœ๋ฅผ ๋“ค์—ฌ๋‹ค๋ณด๋Š” ๋ถ„์„(Probing) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ํ…Œ์ŠคํŠธ ๋ฒค์น˜๋งˆํฌ: ์ฃผ๋กœ ์‹œ๊ณต๊ฐ„ ์ถ”๋ก ์ด ํ•„์š”ํ•œ โ€˜๋ฏธ๋กœ ์ฐพ๊ธฐ(Maze)โ€™ ๋ฌธ์ œ์™€ NExT-QA์™€ ๊ฐ™์€ ๋น„๋””์˜ค ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
  • CoS์˜ ์ฆ๋ช…: ์ดˆ๊ธฐ ๋””๋…ธ์ด์ง• ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ๋ฏธ๋กœ์˜ ์ •๋‹ต ๊ฒฝ๋กœ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์˜ค๋‹ต ๊ฒฝ๋กœ๋“ค๋„ ๋™์‹œ์— ํฌ๋ฏธํ•˜๊ฒŒ ํ‘œํ˜„๋˜์–ด ์žˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ๊ณ„๊ฐ€ ์ง„ํ–‰๋ ์ˆ˜๋ก ์˜ค๋‹ต ๊ฒฝ๋กœ๋Š” ์‚ฌ๋ผ์ง€๊ณ  ์ •๋‹ต ๊ฒฝ๋กœ๋งŒ ๋ช…ํ™•ํ•ด์ง€๋Š” โ€˜๊ฐ€์ง€์น˜๊ธฐ(Pruning)โ€™ ํ˜„์ƒ์ด ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๊ณผ: ๊ธฐ์กด Chain-of-Frames(CoF) ๊ฐ€์„ค๊ณผ ๋‹ฌ๋ฆฌ, ๋ชจ๋ธ์ด ๋‹จ์ˆœํžˆ ์•ž ํ”„๋ ˆ์ž„์„ ๋ณด๊ณ  ๋‹ค์Œ์„ ๊ทธ๋ฆฌ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋””๋…ธ์ด์ง• ๊ณผ์ • ์ „์ฒด๋ฅผ ๊ฑฐ์ณ โ€˜๋‹ต์„ ๋ฏธ๋ฆฌ ๊ณ„์‚ฐโ€™ํ•œ ๋’ค์— ์ด๋ฅผ ๋น„๋””์˜ค๋กœ ๊ตฌํ˜„ํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐํ˜€๋ƒˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์ถ”๋ก  ์ •ํ™•๋„๊ฐ€ ๋””๋…ธ์ด์ง• ์Šคํ… ์ˆ˜์™€ ๊นŠ์€ ์—ฐ๊ด€์ด ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ํ•œ๊ณ„์ : ์ด ๋…ผ๋ฌธ์€ ์ฃผ๋กœ โ€˜ํ˜„์ƒํ•™์  ๋ถ„์„(Phenomenological Analysis)โ€˜์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์™œ ์ด๋Ÿฐ ๋ฐฉ์‹์„ ํ•™์Šตํ•˜๊ฒŒ ๋˜์—ˆ๋Š”์ง€, ์•„๋‹ˆ๋ฉด ๊ตฌ์กฐ์ ์œผ๋กœ ๊ทธ๋ ‡๊ฒŒ ๋˜๋„๋ก ๊ฐ•์ œ๋˜๋Š”์ง€์— ๋Œ€ํ•œ ์ด๋ก ์  ์ˆ˜ํ•™์  ์ฆ๋ช…์ด ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋ชจ๋“  ๋น„๋””์˜ค ๋ชจ๋ธ์— ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€๋Š” ๋” ๋งŽ์€ ๋ชจ๋ธ์—์„œ์˜ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ํ–ฅํ›„ ์—ฐ๊ตฌ: Chain-of-Steps(CoS) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ ๊ทน์ ์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ์ถ”๋ก  ํšจ์œจ์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ถˆํ•„์š”ํ•œ ๋””๋…ธ์ด์ง• ๋‹จ๊ณ„๋ฅผ ๊ฑด๋„ˆ๋›ฐ์–ด ์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ด๊ฑฐ๋‚˜, ์ดˆ๊ธฐ ๋‹จ๊ณ„์—์„œ ๋” ๋‹ค์–‘ํ•œ ํ›„๋ณด๋ฅผ ํƒ์ƒ‰ํ•˜๋„๋ก ์œ ๋„ํ•˜์—ฌ ์ฐฝ์˜์ ์ธ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋“ฑ์˜ ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

  • ์ ์šฉ ๋ถ„์•ผ: ์ด ๋ฐœ๊ฒฌ์€ ๋น„๋””์˜ค ์ƒ์„ฑ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ณต์žกํ•œ ์‹œ๊ฐ์  ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋กœ๋ด‡ ๊ณตํ•™(Robotics), ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ์˜ ์ƒํ™ฉ ํŒ๋‹จ, ๋ณต์žกํ•œ ๊ฒŒ์ž„ AI์˜ ์ „๋žต ์ˆ˜๋ฆฝ ๋“ฑ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ๊ฐ€์ƒ์˜ ๊ฒฝ๋กœ๋ฅผ ํƒ์ƒ‰ํ•ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๋“ค์— ๋งค์šฐ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ํ•„์š” ๋ฆฌ์†Œ์Šค: ๋Œ€๊ทœ๋ชจ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹๊ณผ ๊ณ ์‚ฌ์–‘ GPU(A100 ์ด์ƒ)๊ฐ€ ํ•„์š”ํ•˜์—ฌ, ๊ฐœ์ธ๋ณด๋‹ค๋Š” ์—ฐ๊ตฌ์†Œ๋‚˜ ๋Œ€๊ธฐ์—… R&D ์„ผํ„ฐ ์ˆ˜์ค€์—์„œ์˜ ํ™œ์šฉ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ โ€˜์ถ”๋ก  ๊ณผ์ •์„ ๋‹จ๊ณ„์ ์œผ๋กœ ๋‹ค๋“ฌ๋Š”๋‹คโ€™๋Š” ์•„์ด๋””์–ด๋Š” ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ ์ตœ์ ํ™”์—๋„ ์‘์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • Diffusion Model (๋””ํ“จ์ „ ๋ชจ๋ธ): ๋ฐ์ดํ„ฐ์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ๋”ํ•˜๋Š” ๊ณผ์ •์„ ํ•™์Šตํ–ˆ๋‹ค๊ฐ€, ์—ญ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋ฉฐ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • Denoising Steps (๋””๋…ธ์ด์ง• ๋‹จ๊ณ„): ๋””ํ“จ์ „ ๋ชจ๋ธ์ด ๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ์ด๋ฏธ์ง€์—์„œ ๋…ธ์ด์ฆˆ๋ฅผ ์กฐ๊ธˆ์”ฉ ์ œ๊ฑฐํ•˜์—ฌ ์›๋ž˜ ์„ ๋ช…ํ•œ ์ด๋ฏธ์ง€๋ฅผ ๋ณต์›ํ•ด ๋‚˜๊ฐ€๋Š” ์ผ๋ จ์˜ ํšŸ์ˆ˜์ž…๋‹ˆ๋‹ค.
  • Chain-of-Thought (์‚ฌ๊ณ ์˜ ์‚ฌ์Šฌ): ์–ธ์–ด ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ ์ค‘๊ฐ„ ๋‹จ๊ณ„์˜ ๋…ผ๋ฆฌ๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ์ ์–ด๊ฐ€๋ฉฐ ๋‹ต์„ ๋„์ถœํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
  • Spatiotemporal Consistency (์‹œ๊ณต๊ฐ„์  ์ผ๊ด€์„ฑ): ๋น„๋””์˜ค์—์„œ ์‹œ๊ฐ„์ด ์ง€๋‚˜๋„ ๊ฐ์ฒด์˜ ๋ชจ์–‘์ด๋‚˜ ์œ„์น˜๊ฐ€ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด์–ด์ง€๋Š” ์„ฑ์งˆ์ž…๋‹ˆ๋‹ค.
  • Probing (ํ”„๋กœ๋น™): ํ•™์Šต๋œ ์‹ ๊ฒฝ๋ง์˜ ์ค‘๊ฐ„ ์ธต(Layer)์ด๋‚˜ ํŠน์ • ๋‹จ๊ณ„์—์„œ ์–ด๋–ค ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋Š”์ง€ ๋ถ„์„ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • Working Memory (์ž‘์—… ๊ธฐ์–ต): ํ˜„์žฌ ์ˆ˜ํ–‰ ์ค‘์ธ ์ž‘์—…์„ ์œ„ํ•ด ์ •๋ณด๋ฅผ ์ผ์‹œ์ ์œผ๋กœ ์ €์žฅํ•˜๊ณ  ์กฐ์ž‘ํ•˜๋Š” ์‹ฌ๋ฆฌ์  ํ˜น์€ ์‹œ์Šคํ…œ์  ๊ธฐ์–ต ๊ณต๊ฐ„์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Demystifing Video Reasoning๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆInCoder-32B: Code Foundation Model โ€ฆDD-047
๐Ÿฅ‰AI Can Learn Scientific TasteDD-048
4.SocialOmni: Benchmarking Audio-Visuโ€ฆDD-049
5.MiroThinker-1.7 & H1: Towards Heavyโ€ฆDD-050

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-22 | ๐Ÿค– GLM-4.7 Deep Dive