๐ Weekly AI Paper Digest
๊ธฐ๊ฐ: 2026-03-23 ~ 2026-03-28 ์ ์ : ์ด๋ฒ ์ฃผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ์ ๋ ผ๋ฌธ Top 5
๐ ์ด๋ฒ ์ฃผ Top 5
| ์์ | ๋ ผ๋ฌธ | โฌ๏ธ | Deep Dive |
|---|---|---|---|
| ๐ฅ | MinerU-Diffusion: Rethinking Document OCโฆ | 125 | DD-051 |
| ๐ฅ | Omni-WorldBench: Towards a Comprehensiveโฆ | 122 | DD-052 |
| ๐ฅ | Speed by Simplicity: A Single-Stream Arcโฆ | 115 | DD-053 |
| 4. | PixelSmile: Toward Fine-Grained Facial Eโฆ | 105 | DD-054 |
| 5. | Astrolabe: Steering Forward-Process Reinโฆ | 105 | DD-055 |
๐ ์ด๋ฒ ์ฃผ ํธ๋ ๋
ํต์ฌ ํค์๋
- ํจ์จ์ ์์ฑ ์ํคํ ์ฒ (Efficient Generative Architectures): ์๊ธฐํ๊ท ๋ฐฉ์์ ์์ฐจ์ ์ง์ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ํจ์ ๋์ฝ๋ฉ์ด๋ ๋จ์ผ ์คํธ๋ฆผ ๊ตฌ์กฐ ๋ฑ์ ๋์ ํ์ฌ ์ถ๋ก ์๋์ ํ์ง์ ๋์์ ๊ฐ์ ํ๋ ค๋ ์๋.
- ๋ค์ค ๋ชจ๋ฌ ํตํฉ ์์ฑ (Multimodal Generation): ์ค๋์ค์ ๋น๋์ค์ ๋์ ์์ฑ, ๋ฌธ์์ ๋ ์ด์์๊ณผ ํ ์คํธ ๋ณต์ ๋ฑ ์๋ก ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ธฐ์ ์ ๊ณ ๋ํ.
- 4D ์๋ ๋ชจ๋ธ๋ง (4D World Modeling): ๋จ์ํ 3D ์ฌ๊ตฌ์ฑ์ด๋ ์ ์ ์์ ์์ฑ์ ๋์ด, ์๊ฐ์ ํ๋ฆ๊ณผ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ํฌํจํ๋ 4์ฐจ์ ์ธ๊ณ ๋ชจ๋ธ์ ์ค์์ฑ ๋ถ๊ฐ.
- ์ ๊ตํ ์ ์ด ๋ฐ ์ ๋ ฌ (Fine-grained Control & Alignment): ๋ฏธ์ธํ ํ์ ํธ์ง์ด๋ ์ธ๊ฐ์ ์๊ฐ์ ์ ํธ๋์ ๋ง๋ ์์ ์์ฑ ๋ฑ, ์์ฑ ๊ฒฐ๊ณผ๋ฌผ์ ๋ํ ์ธ๋ฐํ ์ ์ด ๋ฅ๋ ฅ๊ณผ ์ ๋ ฌ ๊ธฐ์ ๊ฐํ.
๊ณตํต ์ฃผ์
์ด๋ฒ ์ฃผ ๋ ผ๋ฌธ๋ค์ ๊ธฐ์กด ์์ฑ ๋ชจ๋ธ๋ค์ด ๊ฐ์ง ๊ตฌ์กฐ์ ๋ณต์ก์ฑ๊ณผ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์ฃผ๋ ฅํ๊ณ ์์ต๋๋ค. ํนํ ์๊ธฐํ๊ท(autoregressive) ๋ฐฉ์์ด๋ ๋ณต์กํ ๊ต์ฐจ ์ฃผ์(cross-attention) ๊ตฌ์กฐ๋ฅผ ํํผํ์ฌ, ๋จ์ํ๋ ๊ตฌ์กฐ๋ ๋ํจ์ ๊ธฐ๋ฐ์ ์๋ก์ด ๋์ฝ๋ฉ ๋ฐฉ์์ ํตํด ์ฒ๋ฆฌ ์๋๋ฅผ ๋์ด๊ณ ์ค๋ฅ๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ด ๊ณตํต์ ์ผ๋ก ๋ํ๋ฉ๋๋ค. ๋ํ ๋จ์ํ ์์ฑ์ ๋์ด ์๊ฐ์ ์์(4D)์ ์ํธ์์ฉ, ์ธ๊ฐ์ ์ ํธ๋ฅผ ๋ฐ์ํ๋ ์ ๊ตํ ์ ์ด๊ฐ AI ์ฐ๊ตฌ์ ํต์ฌ ๋ชฉํ๋ก ์๋ฆฌ ์ก๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ฃผ๋ชฉํ ์
OCR ๋ถ์ผ์์ ํ ์คํธ๋ฅผ ์์ฐจ์ ์ผ๋ก ์์ฑํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ฒ๋ฆฌ๊ณ , ๋ฌธ์๋ฅผ ์ญ ๋ ๋๋ง(Inverse Rendering) ๊ด์ ์์ ์ ๊ทผํ์ฌ ๋ํจ์ ๋ชจ๋ธ๋ก ๋์ฝ๋ฉํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ด ์ ์๋์๋ค๋ ์ ์ด ํฅ๋ฏธ๋กญ์ต๋๋ค. ๋ํ ์ค๋์ค์ ๋น๋์ค, ํ ์คํธ๋ฅผ ํ๋์ ํ ํฐ ์ํ์ค๋ก ํตํฉํ์ฌ ์ฒ๋ฆฌํ๋ ๋จ์ผ ์คํธ๋ฆผ(Single-stream) ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๊ฐ ๋ณต์กํ ๋ชจ๋ธ ๊ตฌ์กฐ ์์ด๋ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ์ ํจ์จ์ฑ์ ๊ทน๋ํํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
์ค๋ฌด ์์ฌ์
๊ฐ๋ฐ์์ ์ฐ๊ตฌ์๋ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ๋ชจ๋ธ์ ์ค๊ณ ์, ๋ณต์กํ ๋ชจ๋ ๊ฒฐํฉ๋ณด๋ค๋ ํตํฉ๋ ํ ํฐ ์ฒ๋ฆฌ๋ ๋น์๊ธฐํ๊ท์ ๋์ฝ๋ฉ ๋ฐฉ์์ ํตํด ์ถ๋ก ๋น์ฉ์ ์ค์ด๊ณ ์ฑ๋ฅ์ ๋์ผ ์ ์๋์ง ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๋ํ ์๋ ๋ชจ๋ธ์ด๋ ๋น๋์ค ์์ฑ ๋ชจ๋ธ ๊ฐ๋ฐ ์์๋ ๋จ์ ํ์ง ๋น๊ต๋ฅผ ๋์ด **๋์ญํ์ ์ํธ์์ฉ์ด๋ ์ธ๊ฐ ์ ํธ๋๋ฅผ ํ๊ฐํ๋ ์ต์ ๋ฒค์น๋งํฌ(Omni-WorldBench ๋ฑ)**๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ์ ์ค์ฉ์ฑ์ ๊ฒ์ฆํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
๐ ๋ ผ๋ฌธ๋ณ ์์ฝ
๐ฅ 1. MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding
arXiv: 2603.22458 | โฌ๏ธ 125 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
ocrdiffusion-modelinverse-renderingdocument-aiparallel-decodingvlmcomputer-vision
๊ธฐ์กด์ ๋๋ฆฌ๊ณ ์ค๋ฅ์ ์ทจ์ฝํ๋ ์์ฐจ์ ๋ฐฉ์์ OCR(Optical Character Recognition)์ ๋ํจ์ (Diffusion) ๊ธฐ๋ฐ์ ๋ณ๋ ฌ ๋์ฝ๋ฉ์ผ๋ก ๋์ฒดํ์ฌ, ๋ฌธ์์ ๊ณต๊ฐ์ ๊ตฌ์กฐ๋ฅผ ํจ์ฌ ๋ ํจ์จ์ ์ด๊ณ ์ ํํ๊ฒ ๋ณต์ํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 2. Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models
arXiv: 2603.22212 | โฌ๏ธ 122 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
world-modelsbenchmarkvideo-generationembodied-aievaluation-metricscausal-reasoningcomputer-vision
๊ธฐ์กด ํ๊ฐ ๋ฐฉ์๋ค์ด ๋์น๊ณ ์๋ ์๋ ๋ชจ๋ธ์ ๊ฐ์ฅ ํต์ฌ ๋ฅ๋ ฅ์ธ โ์ํธ์์ฉ์ ๋ฐ๋ฅธ ์ธ๊ณผ์ ๋ฐ์โ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ฅ 3. Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model
arXiv: 2603.21986 | โฌ๏ธ 115 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
audio-video-generationsingle-streamtransformermultimodalgenerative-modelhuman-centricopen-sourceefficiency
๋ณต์กํ ๋ฉํฐ ์คํธ๋ฆผ ๊ตฌ์กฐ ์์ด ๋จ์ผ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ก ๊ณ ํ์ง์ ์ค๋์ค์ ๋น๋์ค๋ฅผ ๋๊ธฐํํ์ฌ ์์ฑํ๋ ์คํ์์ค ๋ชจ๋ธ์ ์ ์ํ์ฌ ์ฐ๊ตฌ ํ์ฅ์ฑ๊ณผ ์ถ๋ก ํจ์จ์ฑ์ ๋ชจ๋ ํ๋ณดํ๊ธฐ ๋๋ฌธ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
4. 4. PixelSmile: Toward Fine-Grained Facial Expression Editing
arXiv: 2603.25728 | โฌ๏ธ 105 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
ai-paperml
ํ์ ๊ฐ์ ์๋ฏธ์ ์ค๋ณต ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ์ฐ์์ ์ธ ๊ฐ๋ ์กฐ์ ์ด ๊ฐ๋ฅํ๊ณ ์ ๊ตํ๊ฒ ๋ถ๋ฆฌ๋ ์ผ๊ตด ํ์ ํธ์ง์ ์คํํ ์๋ก์ด ํ๋ ์์ํฌ์ ๋ฐ์ดํฐ์ ์ ์ ์ํ๋ค๋ ์ ์์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
5. 5. Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models
arXiv: 2603.17051 | โฌ๏ธ 105 โ Deep Dive ๋ณด๊ธฐ ํ๊ทธ:
video-generationautoregressive-modelrlhfdiffusion-distillationreal-time-inferenceonline-rlcomputer-vision
์คํ๋ผ์ธ ์ฆ๋ฅ(Distillation) ๊ธฐ๋ฒ์ ํจ์จ์ฑ๊ณผ ์จ๋ผ์ธ ๊ฐํ ํ์ต(Online RL)์ ์ธ๊ฐ ์ ํธ๋ ์ต์ ํ๋ฅผ ๊ฒฐํฉํ์ฌ, ์ค์๊ฐ์ผ๋ก ๊ณ ํ์ง์ ๊ธด ๋น๋์ค๋ฅผ ์์ฑํ ์ ์๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๊ธฐ์ ์ค์ํฉ๋๋ค.
๐ ์์ธ ๋ถ์: โ Deep Dive ๋ณด๊ธฐ์์ ์ฌ์ธต ๋ถ์์ ํ์ธํ์ธ์.
๐ ์์ฑ์ผ: 2026-03-29 | ๐ค GLM-4.7 Weekly Digest