โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-051 MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

arXiv: 2603.22458 Upvotes: 125 | Comments: 6 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 1


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: MinerU-Diffusion

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ๋ฌธ์„œ ๊ด‘ํ•™ ๋ฌธ์ž ์ธ์‹ ์‹œ์Šคํ…œ์€ ์ฃผ๋กœ ์žํšŒ๊ท€(Autoregressive) ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ๋ฅผ ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ํ•˜๋‚˜์”ฉ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑํ•ด์™”์œผ๋ฉฐ, ์ด๋Š” ๊ธด ๋ฌธ์„œ ์ฒ˜๋ฆฌ ์‹œ ์†๋„ ์ €ํ•˜์™€ ์˜ค๋ฅ˜ ๋ˆ„์ ์ด๋ผ๋Š” ์น˜๋ช…์ ์ธ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ฌธ์„œ ์ธ์‹ ์ž‘์—…์„ ์–ธ์–ด์  ์ƒ์„ฑ์ด ์•„๋‹Œ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ํ…์ŠคํŠธ๋ฅผ ๋ณต์›ํ•˜๋Š” ์—ญ ๋ Œ๋”๋ง(Inverse Rendering) ๊ด€์ ์—์„œ ์žฌ์ •์˜ํ•˜๊ณ , ์ˆœ์ฐจ์  ์ƒ์„ฑ ๋Œ€์‹  ๋ณ‘๋ ฌ ํ™•์‚ฐ ๋””์ฝ”๋”ฉ์„ ์ ์šฉํ•˜์—ฌ ์ด ๋ฌธ์ œ๋ฅผ ๊ทผ๋ณธ์ ์œผ๋กœ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ๊ฒช๋˜ ์˜์กด์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ๋ณต์žกํ•œ ํ‘œ์™€ ์ˆ˜์‹์ด ํฌํ•จ๋œ ๋ฌธ์„œ์—์„œ๋„ ๋” ๋†’์€ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.


2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€˜ํƒ€์ž ์ž…๋ ฅโ€™ vs โ€˜๋ฒฝํ™” ๋ณต์›โ€™

๊ธฐ์กด์˜ ์žํšŒ๊ท€(Autoregressive) ๋ชจ๋ธ์ด ๋ฌธ์„œ๋ฅผ ์ธ์‹ํ•˜๋Š” ๋ฐฉ์‹์€ ํƒ€์ž๋ฅผ ์น˜๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์ด ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ฒ ์ž ํ•˜๋‚˜ํ•˜๋‚˜๋ฅผ ์ •ํ™•ํžˆ ๋ˆŒ๋Ÿฌ์•ผ ๋‹ค์Œ ์ฒ ์ž๋ฅผ ์น  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ, ์ด ๋ชจ๋ธ๋“ค๋„ ์•ž๋‹จ์–ด๊ฐ€ ํ‹€๋ฆฌ๋ฉด ๋’ค๋”ฐ๋ฅด๋Š” ๋ฌธ์žฅ ์ „์ฒด๊ฐ€ ์—‰๋ง์ด ๋˜๋Š” ์œ„ํ—˜์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํ‘œ๋‚˜ ์ˆ˜์‹์ฒ˜๋Ÿผ ๊ตฌ์กฐ๊ฐ€ ๋ณต์žกํ•˜๋ฉด, ์•ž๋ถ€๋ถ„์„ ์ž˜๋ชป ์ฝ์–ด ์ „์ฒด ํ˜•์‹์ด ๊นจ์ง€๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด์— ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ํ™•์‚ฐ(Diffusion) ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์€ ์˜ค๋ž˜๋œ ๋ฒฝํ™”๋ฅผ ๋ณต์›ํ•˜๋Š” ์ž‘์—…์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค. ๋ณต์›๊ฐ€๋“ค์€ ๋ฒฝํ™” ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ๋ณด๋ฉด์„œ ๋จผ์ง€๊ฐ€ ๋ฎ์ธ ์ „์ฒด ๊ทธ๋ฆผ(๋…ธ์ด์ฆˆ๊ฐ€ ์„ž์ธ ํ…์ŠคํŠธ)์„ ๋‹จ๊ณ„๋ณ„๋กœ ๋‹ฆ์•„๋‚ด ์›๋ž˜ ๊ทธ๋ฆผ(๊นจ๋—ํ•œ ํ…์ŠคํŠธ)์„ ๋˜์ฐพ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ์ ์€, โ€˜Aโ€™ ๋ชจ์–‘์„ ๋ณต์›ํ•  ๋•Œ ๊ทธ ์˜†์— ์žˆ๋Š” โ€˜Bโ€™๊ฐ€ ์–ด๋–ค ๊ธ€์ž์ธ์ง€์— ์–ฝ๋งค์ด์ง€ ์•Š๊ณ , ๋ˆˆ์•ž์— ๋ณด์ด๋Š” ํ๋ฆฟํ•œ ์œค๊ณฝ(์ด๋ฏธ์ง€ ์ฆ๊ฑฐ)์„ ๋ฏฟ๊ณ  ๋‹ฆ์•„๋‚ธ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹ ๋•๋ถ„์— ๊ธ€์ž ๊ฐ„์˜ ์ˆœ์„œ์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๊ณ  ๋ฌธ์„œ ์ „์ฒด๋ฅผ ๋™์‹œ์— ๋น ๋ฅด๊ฒŒ ๋ณต์›ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ๋ฐฉ์‹์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ์ฒซ์งธ, ๋ฌธ์„œ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ํ…์ŠคํŠธ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ† ํฐ(Token) ์‹œํ€€์Šค์— ๋…ธ์ด์ฆˆ๋ฅผ ์„ž๋Š” ๊ณผ์ •(์ˆœ๋ฐฉํ–ฅ)์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ๋งˆ์น˜ ํ๋ฆฐ ์•ˆ๊ฒฝ์„ ๋‹ฆ์•„๋‚ด๋“ฏ, ๋””์ฝ”๋”๊ฐ€ ์ด๋ฏธ์ง€ ์ •๋ณด๋ฅผ ์ฐธ๊ณ ํ•˜๋ฉด์„œ ์„ž์ธ ๋…ธ์ด์ฆˆ๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ์ œ๊ฑฐํ•ด ์ •ํ™•ํ•œ ํ…์ŠคํŠธ๋ฅผ ์ฐพ์•„๋ƒ…๋‹ˆ๋‹ค(์—ญ๋ฐฉํ–ฅ). ํŠนํžˆ ์ด ๋…ผ๋ฌธ์€ โ€˜๋ธ”๋ก ๋‹จ์œ„โ€™๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ์ „์ฒด ๋ฌธ์„œ๋ฅผ ์•„์ฃผ ์ž‘์€ ๋‹จ์œ„๋กœ ์ชผ๊ฐœ ๋™์‹œ์— ๋ณต์›ํ•จ์œผ๋กœ์จ ์†๋„๋ฅผ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: ์—ญ ๋ Œ๋”๋ง๊ณผ ๋ธ”๋ก ๋‹จ์œ„ ํ™•์‚ฐ

์ˆ˜์‹์œผ๋กœ ๋ณด๋ฉด, ๋ฌธ์„œ OCR์„ ์ด๋ฏธ์ง€๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ํ…์ŠคํŠธ๋ฅผ ์ถ”์ •ํ•˜๋Š” ํ™•๋ฅ ์  ๊ณผ์ •์œผ๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹์ด ํ…์ŠคํŠธ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์— ์ง‘์ค‘ํ–ˆ๋‹ค๋ฉด, ์ด ๋…ผ๋ฌธ์€ ์ด๋ฏธ์ง€๋ผ๋Š” ํ™•์‹คํ•œ ์ฆ๊ฑฐ ํ•˜์—์„œ ํ…์ŠคํŠธ ์ „์ฒด๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋ณต์›ํ•˜๋Š” ์—ญ ๋ Œ๋”๋ง ๋ฌธ์ œ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— ๋ธ”๋ก ์™€์ด์ฆˆ ๋””ํ“จ์ „(Block-wise Diffusion) ๊ธฐ์ˆ ์„ ์ ์šฉํ•ด, ๊ธด ์‹œํ€€์Šค๋ฅผ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋“œ๋Š” ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ณ  ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.


3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์—ฐ๊ตฌ์ง„์€ ๋ฌธ์„œ, ํ‘œ, ์ˆ˜์‹ ์ธ์‹ ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด OmniDocBench v1.5, CC-OCR, UniMER-Test ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์‹คํ—˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํ…์ŠคํŠธ๋Š” ํŽธ์ง‘ ๊ฑฐ๋ฆฌ(Edit Distance), ์ˆ˜์‹์€ CDM, ํ‘œ๋Š” TEDS ์ ์ˆ˜๋ฅผ ํ†ตํ•ด ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ทธ ๊ฒฐ๊ณผ, ๊ธฐ์กด ์žํšŒ๊ท€ ๊ธฐ๋ฐ˜์˜ ์ตœ์‹  ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์—์„œ ๋Œ€๋“ฑํ•˜๊ฑฐ๋‚˜ ์šฐ์ˆ˜ํ•œ ๊ฒฝ์Ÿ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋”์šฑ ์ธ์ƒ์ ์ธ ๋ถ€๋ถ„์€ ์˜๋ฏธ๋ฅผ ์„ž์–ด๋†“์€ ๋ฐ์ดํ„ฐ์…‹์ธ Semantic Shuffle ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ๋“ค์€ ๋ฌธ๋งฅ์  ์˜๋ฏธ๊ฐ€ ๊นจ์ง€๋ฉด ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์กŒ์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์˜ ๋ชจ๋ธ์€ ์‹œ๊ฐ์  ์ •๋ณด์— ๊ฐ•๊ฑดํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜์—ฌ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋งค์šฐ ์ ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ์–ธ์–ด์  ์ถ”์ธก์ด ์•„๋‹Œ ์‹ค์ œ ๋ณด์ด๋Š” ์ด๋ฏธ์ง€์— ๊ธฐ๋ฐ˜ํ•ด ํ…์ŠคํŠธ๋ฅผ ์ฝ์–ด๋‚ธ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ•˜๋Š” ํ•ต์‹ฌ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.


4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ํ˜„์žฌ ๋ชจ๋ธ์ด ์ฃผ๋กœ ์ค‘๊ตญ์–ด์™€ ์˜์–ด ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ €์ž์› ์–ธ์–ด(Low-resource language)์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์€ ์•„์ง ๊ฒ€์ฆ๋˜์ง€ ์•Š์•˜์Œ์„ ์ธ์ •ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ™•์‚ฐ ๋ชจ๋ธ์˜ ํŠน์„ฑ์ƒ ์ถ”๋ก  ๊ณผ์ •์— ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ๋””๋…ธ์ด์ง• ๋‹จ๊ณ„๊ฐ€ ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์™„์ „ ๋ณ‘๋ ฌํ™”๋˜์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์•„์ฃผ ์งง์€ ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ์—์„œ๋Š” ๊ธฐ์กด ๋ฐฉ์‹๋ณด๋‹ค ๋А๋ฆด ์ˆ˜ ์žˆ๋Š” ์‹œ๊ฐ„ ํšจ์œจ์„ฑ์˜ ๊ท ํ˜• ๋ฌธ์ œ๋„ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ–ฅํ›„ ์—ฐ๊ตฌ๋กœ๋Š” ๋””๋…ธ์ด์ง• ๋‹จ๊ณ„ ์ˆ˜๋ฅผ ์ค„์—ฌ ์†๋„๋ฅผ ๋” ๋†’์ด๋Š” ์—ฐ๊ตฌ๋‚˜, ๋” ๋‹ค์–‘ํ•œ ์–ธ์–ด์™€ ๋ ˆ์ด์•„์›ƒ์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ฒƒ, ๊ทธ๋ฆฌ๊ณ  ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๊ฐ„์˜ ์ •๋ ฌ์„ ๋”์šฑ ์ •๊ตํ•˜๊ฒŒ ํ•˜๋Š” ๊ธฐ์ˆ  ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.


5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ ๋ณต์žกํ•œ ๋ฌธ์„œ ๊ตฌ์กฐ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๋””์ง€ํ„ธํ™”ํ•ด์•ผ ํ•˜๋Š” ๋ถ„์•ผ์— ์ฆ‰์‹œ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๊ธˆ์œต ๋ณด๊ณ ์„œ์˜ ํ‘œ๋ฅผ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜, ํ•™์ˆ  ๋…ผ๋ฌธ์˜ ์ˆ˜์‹์„ ์™„๋ฒฝํ•˜๊ฒŒ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” RAG(๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ) ์‹œ์Šคํ…œ ๊ตฌ์ถ•์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

๋‹ค๋งŒ, ์•ฝ 25์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋Œ€ํ˜• ๋ชจ๋ธ์ด๋ฏ€๋กœ, ์ถ”๋ก ์„ ์œ„ํ•ด ์ƒ๋‹นํ•œ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ฐ€์ง„ GPU ์ž์›์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ์žํšŒ๊ท€ ๋ชจ๋ธ ์„œ๋น™ ํ™˜๊ฒฝ์ด ์žˆ๋‹ค๋ฉด ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ ์‚ฌํ•ญ์€ ๋น„์Šทํ•œ ์ˆ˜์ค€์ผ ๊ฒƒ์ด๋‚˜, ํ™•์‚ฐ ๋ชจ๋ธ ํŠน์œ ์˜ ์ถ”๋ก  ์ตœ์ ํ™” ๊ธฐ์ˆ ์ด ํ•จ๊ป˜ ์ ์šฉ๋˜์–ด์•ผ ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ๋‹ด๋ณดํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.


6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๊ด‘ํ•™ ๋ฌธ์ž ์ธ์‹(Optical Character Recognition, OCR) ์ด๋ฏธ์ง€ ์†์— ์žˆ๋Š” ํ…์ŠคํŠธ๋ฅผ ๊ธฐ๊ณ„๊ฐ€ ์ฝ์„ ์ˆ˜ ์žˆ๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

  • ์žํšŒ๊ท€ ๋ชจ๋ธ(Autoregressive Model) ์ด์ „์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, GPT์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ํ™•์‚ฐ ๋ชจ๋ธ(Diffusion Model) ๋ฐ์ดํ„ฐ์— ์ ์ฐจ ๋…ธ์ด์ฆˆ๋ฅผ ๋”ํ–ˆ๋‹ค๊ฐ€, ๋‹ค์‹œ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ณผ์ •์„ ํ†ตํ•ด ์›๋ž˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณต์›ํ•˜๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • ์—ญ ๋ Œ๋”๋ง(Inverse Rendering) 2D ์ด๋ฏธ์ง€๋‚˜ ๊ด€์ธก ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ 3D ํ˜•์ƒ์ด๋‚˜ ์›๋ณธ ์žฅ๋ฉด์˜ ๋ฌผ๋ฆฌ์  ์†์„ฑ์„ ์ถ”์ •ํ•˜๋Š” ๋ณต์› ๊ณผ์ •์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

  • ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(Vision-Language Model, VLM) ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • ๋ธ”๋ก ์™€์ด์ฆˆ ์–ดํ…์…˜(Block-wise Attention) ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ธ”๋ก ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„์–ด ์–ดํ…์…˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • ์˜๋ฏธ์  ์„ž๊ธฐ(Semantic Shuffle) ๋ชจ๋ธ์ด ์–ธ์–ด์  ๋ฌธ๋งฅ์—๋งŒ ์˜์กดํ•˜๋Š”์ง€, ์•„๋‹ˆ๋ฉด ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ์ œ๋Œ€๋กœ ๋ณด๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด ๋ฌธ์„œ ๋‚ด ๋‹จ์–ด ์ˆœ์„œ๋ฅผ ์„ž๋Š” ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.


๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡MinerU-Diffusion: Rethinking Documeโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐ŸฅˆOmni-WorldBench: Towards a Compreheโ€ฆDD-052
๐Ÿฅ‰Speed by Simplicity: A Single-Streaโ€ฆDD-053
4.PixelSmile: Toward Fine-Grained Facโ€ฆDD-054
5.Astrolabe: Steering Forward-Processโ€ฆDD-055

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-29 | ๐Ÿค– GLM-4.7 Deep Dive