โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-051 MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding
arXiv: 2603.22458 Upvotes: 125 | Comments: 6 ์์: ์ด๋ฒ ์ฃผ Top 1
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: MinerU-Diffusion
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฌธ์ ๊ดํ ๋ฌธ์ ์ธ์ ์์คํ ์ ์ฃผ๋ก ์ํ๊ท(Autoregressive) ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ํ ์คํธ๋ฅผ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ํ๋์ฉ ์์ฐจ์ ์ผ๋ก ์์ฑํด์์ผ๋ฉฐ, ์ด๋ ๊ธด ๋ฌธ์ ์ฒ๋ฆฌ ์ ์๋ ์ ํ์ ์ค๋ฅ ๋์ ์ด๋ผ๋ ์น๋ช ์ ์ธ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ฌธ์ ์ธ์ ์์ ์ ์ธ์ด์ ์์ฑ์ด ์๋ ์ด๋ฏธ์ง๋ก๋ถํฐ ํ ์คํธ๋ฅผ ๋ณต์ํ๋ ์ญ ๋ ๋๋ง(Inverse Rendering) ๊ด์ ์์ ์ฌ์ ์ํ๊ณ , ์์ฐจ์ ์์ฑ ๋์ ๋ณ๋ ฌ ํ์ฐ ๋์ฝ๋ฉ์ ์ ์ฉํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ํด๊ฒฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด ๋ชจ๋ธ๋ค์ด ๊ฒช๋ ์์กด์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ๋ณต์กํ ํ์ ์์์ด ํฌํจ๋ ๋ฌธ์์์๋ ๋ ๋์ ์ ํ๋์ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : โํ์ ์ ๋ ฅโ vs โ๋ฒฝํ ๋ณต์โ
๊ธฐ์กด์ ์ํ๊ท(Autoregressive) ๋ชจ๋ธ์ด ๋ฌธ์๋ฅผ ์ธ์ํ๋ ๋ฐฉ์์ ํ์๋ฅผ ์น๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ฌ๋์ด ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ฒ ์ ํ๋ํ๋๋ฅผ ์ ํํ ๋๋ฌ์ผ ๋ค์ ์ฒ ์๋ฅผ ์น ์ ์๋ ๊ฒ์ฒ๋ผ, ์ด ๋ชจ๋ธ๋ค๋ ์๋จ์ด๊ฐ ํ๋ฆฌ๋ฉด ๋ค๋ฐ๋ฅด๋ ๋ฌธ์ฅ ์ ์ฒด๊ฐ ์๋ง์ด ๋๋ ์ํ์ด ์์ต๋๋ค. ํนํ ํ๋ ์์์ฒ๋ผ ๊ตฌ์กฐ๊ฐ ๋ณต์กํ๋ฉด, ์๋ถ๋ถ์ ์๋ชป ์ฝ์ด ์ ์ฒด ํ์์ด ๊นจ์ง๊ธฐ ์ฝ์ต๋๋ค.
๋ฐ๋ฉด์ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ํ์ฐ(Diffusion) ๊ธฐ๋ฐ ๋ฐฉ์์ ์ค๋๋ ๋ฒฝํ๋ฅผ ๋ณต์ํ๋ ์์ ์ ๊ฐ๊น์ต๋๋ค. ๋ณต์๊ฐ๋ค์ ๋ฒฝํ ์ ์ฒด๋ฅผ ํ ๋ฒ์ ๋ณด๋ฉด์ ๋จผ์ง๊ฐ ๋ฎ์ธ ์ ์ฒด ๊ทธ๋ฆผ(๋ ธ์ด์ฆ๊ฐ ์์ธ ํ ์คํธ)์ ๋จ๊ณ๋ณ๋ก ๋ฆ์๋ด ์๋ ๊ทธ๋ฆผ(๊นจ๋ํ ํ ์คํธ)์ ๋์ฐพ์ต๋๋ค. ์ฌ๊ธฐ์ ์ค์ํ ์ ์, โAโ ๋ชจ์์ ๋ณต์ํ ๋ ๊ทธ ์์ ์๋ โBโ๊ฐ ์ด๋ค ๊ธ์์ธ์ง์ ์ฝ๋งค์ด์ง ์๊ณ , ๋์์ ๋ณด์ด๋ ํ๋ฆฟํ ์ค๊ณฝ(์ด๋ฏธ์ง ์ฆ๊ฑฐ)์ ๋ฏฟ๊ณ ๋ฆ์๋ธ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ๋ฐฉ์ ๋๋ถ์ ๊ธ์ ๊ฐ์ ์์์ ๊ตฌ์ ๋ฐ์ง ์๊ณ ๋ฌธ์ ์ ์ฒด๋ฅผ ๋์์ ๋น ๋ฅด๊ฒ ๋ณต์ํ ์ ์์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ๋ฐฉ์์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ๋๋ฉ๋๋ค. ์ฒซ์งธ, ๋ฌธ์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ํ ์คํธ๋ฅผ ๋ํ๋ด๋ ํ ํฐ(Token) ์ํ์ค์ ๋ ธ์ด์ฆ๋ฅผ ์๋ ๊ณผ์ (์๋ฐฉํฅ)์ ๊ฑฐ์นฉ๋๋ค. ๋์งธ, ๋ง์น ํ๋ฆฐ ์๊ฒฝ์ ๋ฆ์๋ด๋ฏ, ๋์ฝ๋๊ฐ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์ฐธ๊ณ ํ๋ฉด์ ์์ธ ๋ ธ์ด์ฆ๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์ ๊ฑฐํด ์ ํํ ํ ์คํธ๋ฅผ ์ฐพ์๋ ๋๋ค(์ญ๋ฐฉํฅ). ํนํ ์ด ๋ ผ๋ฌธ์ โ๋ธ๋ก ๋จ์โ๋ก ์ฒ๋ฆฌํ์ฌ ์ ์ฒด ๋ฌธ์๋ฅผ ์์ฃผ ์์ ๋จ์๋ก ์ชผ๊ฐ ๋์์ ๋ณต์ํจ์ผ๋ก์จ ์๋๋ฅผ ๋์์ต๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: ์ญ ๋ ๋๋ง๊ณผ ๋ธ๋ก ๋จ์ ํ์ฐ
์์์ผ๋ก ๋ณด๋ฉด, ๋ฌธ์ OCR์ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ ํ ์คํธ๋ฅผ ์ถ์ ํ๋ ํ๋ฅ ์ ๊ณผ์ ์ผ๋ก ์ ์ํฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ด ํ ์คํธ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ง์คํ๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ ์ด๋ฏธ์ง๋ผ๋ ํ์คํ ์ฆ๊ฑฐ ํ์์ ํ ์คํธ ์ ์ฒด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ณต์ํ๋ ์ญ ๋ ๋๋ง ๋ฌธ์ ๋ก ์ ๊ทผํฉ๋๋ค. ์ฌ๊ธฐ์ ๋ธ๋ก ์์ด์ฆ ๋ํจ์ (Block-wise Diffusion) ๊ธฐ์ ์ ์ ์ฉํด, ๊ธด ์ํ์ค๋ฅผ ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ ๋ฐ ๋๋ ์ฐ์ฐ๋์ ์ค์ด๊ณ ํจ์จ์ฑ์ ๊ทน๋ํํ์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ ๋ฌธ์, ํ, ์์ ์ธ์ ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด OmniDocBench v1.5, CC-OCR, UniMER-Test ๋ฑ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ์คํ์ ์งํํ์ต๋๋ค. ํนํ ํ ์คํธ๋ ํธ์ง ๊ฑฐ๋ฆฌ(Edit Distance), ์์์ CDM, ํ๋ TEDS ์ ์๋ฅผ ํตํด ์ ํ๋๋ฅผ ์ธก์ ํ์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ, ๊ธฐ์กด ์ํ๊ท ๊ธฐ๋ฐ์ ์ต์ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์์ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ ๊ฒฝ์๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋์ฑ ์ธ์์ ์ธ ๋ถ๋ถ์ ์๋ฏธ๋ฅผ ์์ด๋์ ๋ฐ์ดํฐ์ ์ธ Semantic Shuffle ๋ฒค์น๋งํฌ์์์ ๊ฒฐ๊ณผ์ ๋๋ค. ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๋ฌธ๋งฅ์ ์๋ฏธ๊ฐ ๊นจ์ง๋ฉด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ก์ง๋ง, ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ์๊ฐ์ ์ ๋ณด์ ๊ฐ๊ฑดํ๊ฒ ๋ฐ์ํ์ฌ ์ฑ๋ฅ ์ ํ๊ฐ ๋งค์ฐ ์ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์ธ์ด์ ์ถ์ธก์ด ์๋ ์ค์ ๋ณด์ด๋ ์ด๋ฏธ์ง์ ๊ธฐ๋ฐํด ํ ์คํธ๋ฅผ ์ฝ์ด๋ธ๋ค๋ ๊ฒ์ ์ ์ฆํ๋ ํต์ฌ ์ฑ๊ณผ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ ํ์ฌ ๋ชจ๋ธ์ด ์ฃผ๋ก ์ค๊ตญ์ด์ ์์ด ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋์๊ธฐ ๋๋ฌธ์, ์ ์์ ์ธ์ด(Low-resource language)์ ๋ํ ์ฑ๋ฅ์ ์์ง ๊ฒ์ฆ๋์ง ์์์์ ์ธ์ ํ๊ณ ์์ต๋๋ค. ๋ํ, ํ์ฐ ๋ชจ๋ธ์ ํน์ฑ์ ์ถ๋ก ๊ณผ์ ์ ์ฌ๋ฌ ๋จ๊ณ์ ๋๋ ธ์ด์ง ๋จ๊ณ๊ฐ ํ์ํ๊ธฐ ๋๋ฌธ์, ์์ ๋ณ๋ ฌํ๋์์์๋ ๋ถ๊ตฌํ๊ณ ์์ฃผ ์งง์ ํ ์คํธ ์ฒ๋ฆฌ์์๋ ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ๋๋ฆด ์ ์๋ ์๊ฐ ํจ์จ์ฑ์ ๊ท ํ ๋ฌธ์ ๋ ๋จ์ ์์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ๋ก๋ ๋๋ ธ์ด์ง ๋จ๊ณ ์๋ฅผ ์ค์ฌ ์๋๋ฅผ ๋ ๋์ด๋ ์ฐ๊ตฌ๋, ๋ ๋ค์ํ ์ธ์ด์ ๋ ์ด์์์ผ๋ก ํ์ฅํ๋ ๊ฒ, ๊ทธ๋ฆฌ๊ณ ํ ์คํธ์ ์ด๋ฏธ์ง ๊ฐ์ ์ ๋ ฌ์ ๋์ฑ ์ ๊ตํ๊ฒ ํ๋ ๊ธฐ์ ๊ฐ๋ฐ์ด ํ์ํ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ๊ธฐ์ ์ ๋ณต์กํ ๋ฌธ์ ๊ตฌ์กฐ๋ฅผ ์ ํํ๊ฒ ๋์งํธํํด์ผ ํ๋ ๋ถ์ผ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธ์ต ๋ณด๊ณ ์์ ํ๋ฅผ ์ถ์ถํ๊ฑฐ๋, ํ์ ๋ ผ๋ฌธ์ ์์์ ์๋ฒฝํ๊ฒ ํ ์คํธ๋ก ๋ณํํ๋ RAG(๊ฒ์ ์ฆ๊ฐ ์์ฑ) ์์คํ ๊ตฌ์ถ์ ์ ์ฉํฉ๋๋ค.
๋ค๋ง, ์ฝ 25์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ํ ๋ชจ๋ธ์ด๋ฏ๋ก, ์ถ๋ก ์ ์ํด ์๋นํ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฐ์ง GPU ์์์ด ํ์ํฉ๋๋ค. ๊ธฐ์กด ์ํ๊ท ๋ชจ๋ธ ์๋น ํ๊ฒฝ์ด ์๋ค๋ฉด ํ๋์จ์ด ์๊ตฌ ์ฌํญ์ ๋น์ทํ ์์ค์ผ ๊ฒ์ด๋, ํ์ฐ ๋ชจ๋ธ ํน์ ์ ์ถ๋ก ์ต์ ํ ๊ธฐ์ ์ด ํจ๊ป ์ ์ฉ๋์ด์ผ ์ค์๊ฐ ์ฑ๋ฅ์ ๋ด๋ณดํ ์ ์์ ๊ฒ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
-
๊ดํ ๋ฌธ์ ์ธ์(Optical Character Recognition, OCR) ์ด๋ฏธ์ง ์์ ์๋ ํ ์คํธ๋ฅผ ๊ธฐ๊ณ๊ฐ ์ฝ์ ์ ์๋ ํ ์คํธ ๋ฐ์ดํฐ๋ก ๋ณํํ๋ ๊ธฐ์ ์ ๋๋ค.
-
์ํ๊ท ๋ชจ๋ธ(Autoregressive Model) ์ด์ ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ธกํ๋ ๋ฐฉ์์ผ๋ก, GPT์ ๊ฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์์ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
-
ํ์ฐ ๋ชจ๋ธ(Diffusion Model) ๋ฐ์ดํฐ์ ์ ์ฐจ ๋ ธ์ด์ฆ๋ฅผ ๋ํ๋ค๊ฐ, ๋ค์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ๋ ๊ณผ์ ์ ํตํด ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๋ ์์ฑ ๋ชจ๋ธ์ ๋๋ค.
-
์ญ ๋ ๋๋ง(Inverse Rendering) 2D ์ด๋ฏธ์ง๋ ๊ด์ธก ๋ฐ์ดํฐ๋ก๋ถํฐ 3D ํ์์ด๋ ์๋ณธ ์ฅ๋ฉด์ ๋ฌผ๋ฆฌ์ ์์ฑ์ ์ถ์ ํ๋ ๋ณต์ ๊ณผ์ ์ ๋งํฉ๋๋ค.
-
์๊ฐ-์ธ์ด ๋ชจ๋ธ(Vision-Language Model, VLM) ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์ต๋ ๋ฉํฐ๋ชจ๋ฌ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค.
-
๋ธ๋ก ์์ด์ฆ ์ดํ ์ (Block-wise Attention) ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ์ฐ์ฐ๋์ ์ค์ด๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ๋ธ๋ก ๋จ์๋ก ๋๋์ด ์ดํ ์ ์ ์ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
-
์๋ฏธ์ ์๊ธฐ(Semantic Shuffle) ๋ชจ๋ธ์ด ์ธ์ด์ ๋ฌธ๋งฅ์๋ง ์์กดํ๋์ง, ์๋๋ฉด ์๊ฐ์ ์ ๋ณด๋ฅผ ์ ๋๋ก ๋ณด๋์ง ํ ์คํธํ๊ธฐ ์ํด ๋ฌธ์ ๋ด ๋จ์ด ์์๋ฅผ ์๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MinerU-Diffusion: Rethinking Documeโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | Omni-WorldBench: Towards a Compreheโฆ | DD-052 |
| ๐ฅ | Speed by Simplicity: A Single-Streaโฆ | DD-053 |
| 4. | PixelSmile: Toward Fine-Grained Facโฆ | DD-054 |
| 5. | Astrolabe: Steering Forward-Processโฆ | DD-055 |
๐ ์์ฑ์ผ: 2026-03-29 | ๐ค GLM-4.7 Deep Dive