โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-053 Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model
arXiv: 2603.21986 Upvotes: 115 | Comments: 5 ์์: ์ด๋ฒ ์ฃผ Top 3
๋ ผ๋ฌธ ๋ถ์: Speed by Simplicity (daVinci-MagiHuman)
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ์คํ์์ค ๋น๋์ค ์์ฑ ๋ชจ๋ธ๋ค์ ์์๋ง ๋ง๋ค๊ฑฐ๋, ์์๊ณผ ์ค๋์ค๋ฅผ ๋ฐ๋ก๋ฐ๋ก ๋ง๋ ๋ค ํฉ์น๋ ๋ณต์กํ ๋ค์ค ์คํธ๋ฆผ(Multi-stream) ๊ตฌ์กฐ๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ์ต๋๋ค. ์ด๋ก ์ธํด ํ์ต์ด ์ด๋ ต๊ณ ์ค๋์ค์ ์ ๋ชจ์์ด ๋ง์ง ์๋ ๋ฑ์ ๋๊ธฐํ ๋ฌธ์ ๊ฐ ์์ฃผ ๋ฐ์ํ๋๋ฐ, ์ด ๋ ผ๋ฌธ์ ํ ์คํธ, ๋น๋์ค, ์ค๋์ค๋ฅผ ํ๋์ ํตํฉ๋ ํ ํฐ ์ํ์ค๋ก ์ฒ๋ฆฌํ๋ ๋จ์ผ ์คํธ๋ฆผ(Single-stream) ๊ตฌ์กฐ๋ฅผ ์ ์ํ์ฌ ์ด ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํ์ต๋๋ค. ์ด๋ฅผ ํตํด Sora๋ Veo ๊ฐ์ ํ์ํ ๋ชจ๋ธ์ ๋ฒ๊ธ๊ฐ๋ ํ์ง์ ์ค๋์ค-๋น๋์ค ์์ฑ์ ์คํ์์ค๋ก ๊ตฌํํ์ผ๋ฉด์๋, ๋งค์ฐ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ์ฌ ์ค์ฌ์ฉ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ๋์๋ค๋ ์ ์ด ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ ๋ก ์ค๋ช
์ด ๋ชจ๋ธ์ ํต์ฌ์ ์๋ฆฌ ๊ณผ์ ์ ๋น์ ํ ์ ์์ต๋๋ค. ๊ธฐ์กด ๋ชจ๋ธ๋ค์ โ์์ฌ๋ฃ(ํ ์คํธ)โ, โ๊ทธ๋ฆ(๋น๋์ค)โ, โ์์ค(์ค๋์ค)โ๋ฅผ ๊ฐ๊ฐ ๋ค๋ฅธ ์๋ฆฌ์ฌ๊ฐ ๋ฐ๋ก ๋ง๋ ๋ค, ๋์ค์ ์๋ก ์๋ฆฌ์น๋ฉฐ ๋ง์ถ๋ ๋ฐฉ์์ด์์ต๋๋ค. ๋ฐ๋ฉด, daVinci-MagiHuman์ ํ ๋ช ์ ์ํผ ์ ฐํ๊ฐ ๋ชจ๋ ์ฌ๋ฃ๋ฅผ ํ ์ปค๋ค๋ ๋๋น(Single-stream Transformer)์ ๋ฃ๊ณ ๋์์ ํ์ ์ด ์๋ฆฌํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์๋ฆฌ์ฌ ๊ฐ์ ์ํต ์ค๋ฅ๊ฐ ์์ด์ง๊ณ , ๋ง๊ณผ ํฅ์ด ์๋ฒฝํ๊ฒ ์ด์ฐ๋ฌ์ง ์๋ฆฌ๋ฅผ ํจ์ฌ ๋น ๋ฅด๊ณ ๊ฐํธํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
- ํตํฉ ํ ํฐํ(Tokenization): ๋จผ์ ์ ๋ ฅ๋ฐ์ ํ ์คํธ, ๋ง๋ค์ด์ผ ํ ๋น๋์ค ํ๋ ์, ์ค๋์ค ํํ์ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ์์ ๋จ์์ธ โํ ํฐโ์ด๋ผ๋ ์ซ์ ๋์ด๋ก ๋ฐ๊ฟ๋๋ค. ์ด๋ ์ธ ๊ฐ์ง ์ข ๋ฅ์ ํ ํฐ์ ์์ด์ ํ๋์ ๊ธด ์ค๋ก ๋ง๋ญ๋๋ค.
- ๋จ์ผ ์คํธ๋ฆผ ์ฒ๋ฆฌ: ์ด ๊ธด ํ ํฐ ์ค์ ํธ๋์คํฌ๋จธ(Transformer) ๋ชจ๋ธ์ ๋ฃ์ต๋๋ค. ๋ชจ๋ธ์ ํ ์คํธ๋ฅผ ๋ณด๊ณ ๋น๋์ค ํ ํฐ์ ์์ฑํ๋ฉด์, ๋์์ ๊ทธ ๋น๋์ค์ ๋ฑ ๋ง๋ ์ค๋์ค ํ ํฐ๋ ํจ๊ป ์์ธกํฉ๋๋ค. ์๋ก ๋ถ๋ฆฌ๋ ๋ชจ๋ธ์ด ์๋ก๋ฅผ ํ์ธํ๋ ค๊ณ ๋ ธ๋ ฅํ๋ ๊ฒ์ด ์๋๋ผ, ํ๋์ ๋์์ ๋ชจ๋ ๊ฒ์ ํต์ ํ์ฌ ์ ๋ชจ์๊ณผ ์๋ฆฌ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ์ผ์นํ๋๋ก ํฉ๋๋ค.
- ํจ์จ์ ๋์ฝ๋ฉ: ์์ฑ๋ ์ ์ฌ ๊ณต๊ฐ(Latent Space)์ ๋ฐ์ดํฐ๋ฅผ Turbo VAE ๋์ฝ๋๋ผ๋ ๊ณ ์ ๋ณํ๊ธฐ๋ฅผ ํตํด ๋น ๋ฅด๊ฒ ์ฐ๋ฆฌ๊ฐ ๋ณด๋ ์ค์ ์์๊ณผ ์๋ฆฌ๋ก ๋ฐ๊ฟ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ ๋ฐ ๊ตฌ์กฐ
์ด ๋ ผ๋ฌธ์ ๊ธฐ์ ์ ํต์ฌ์ โ์ ํ ์ดํ ์ (Self-attention)๋ง ์ฌ์ฉํ๋ ๋จ์ผ ์คํธ๋ฆผ ํธ๋์คํฌ๋จธโ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์๋ก ๊ต์ฐจ์์ผ๋ณด๋ ํฌ๋ก์ค ์ดํ ์ (Cross-attention)์ ์ฐ๋๋ฐ, ์ด ๋ชจ๋ธ์ ๊ทธ๊ฒ์ ๊ณผ๊ฐํ ๋ฒ๋ ธ์ต๋๋ค. ์์์ ์ผ๋ก๋ ์ ๋ ฅ ์ํ์ค X๋ฅผ [X_text, X_video, X_audio]๋ก ์ด์ด ๋ถ์ฌ์ ํ๋์ X_concat์ผ๋ก ๋ง๋ ๋ค, ํ์ค ํธ๋์คํฌ๋จธ ์ฐ์ฐ์ธ Attention(Q, K, V)๋ง ์ ์ฉํฉ๋๋ค. ์ด ๊ตฌ์กฐ์ ๋จ์์ฑ(Simplicity)์ด ์ญ์ค์ ์ผ๋ก ์ต์ ํ๋ฅผ ์ฝ๊ฒ ๋ง๋ค์ด ์๋(Speed)๋ฅผ ๋์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ daVinci-MagiHuman์ ๋ํ์ ์ธ ์คํ์์ค ๋ชจ๋ธ์ธ Ovi 1.1๊ณผ LTX 2.3๊ณผ ๋น๊ตํ์ฌ ์ฑ๋ฅ์ ๊ฒ์ฆํ์ต๋๋ค.
์ฌ์ฉ๋ ๋ฒค์น๋งํฌ
- ๋น๋์ค ํ์ง: VerseBench ๋ฐ์ดํฐ์ ์์ VideoScore2๋ฅผ ์ฌ์ฉํ์ฌ ์๊ฐ์ ํ์ง, ํ ์คํธ ์ ๋ ฌ, ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ์ธก์ ํ์ต๋๋ค.
- ์ค๋์ค ํ์ง: TalkVid-Bench ๋ฐ์ดํฐ์ ์์ GLM-ASR์ ์ด์ฉํด ์์ฑ๋ ์ค๋์ค๋ฅผ ํ ์คํธ๋ก ๋ณํํ๊ณ , ๋จ์ด ์ค๋ฅ์จ(WER, Word Error Rate)์ ์ธก์ ํ์ต๋๋ค. ๋ฎ์์๋ก ์ข์ต๋๋ค.
๊ตฌ์ฒด์ ์ฑ๋ฅ ๋น๊ต
- ์๊ฐ์ ํ์ง๊ณผ ์ ๋ ฌ: daVinci-MagiHuman์ ๊ฐ๊ฐ 4.80, 4.18์ ์ ๊ธฐ๋กํ์ฌ Ovi(4.73, 4.10)์ LTX(4.76, 4.12)๋ฅผ ๋ชจ๋ ๋ฅ๊ฐํ์ต๋๋ค. ์ฆ, ๊ทธ๋ฆผ๋ ๋ ๊ณ ํ์ง์ด๊ณ ๋ช ๋ น์ด๋ฅผ ๋ ์ ๋ฐ๋ฅธ๋ค๋ ๋ป์ ๋๋ค.
- ์ค๋์ค ๋ช ๋ฃ์ฑ(WER): ๊ฐ์ฅ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ธ ๋ถ๋ถ์ ๋๋ค. daVinci-MagiHuman์ 14.60%์ ์ค๋ฅ์จ์ ๊ธฐ๋กํ์ฌ Ovi(40.45%)์ ์ฝ 3๋ฐฐ, LTX(19.23%)๋ณด๋ค๋ ์๋ฑํ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ์์ฑํ๋ ์์ฑ์ด ํจ์ฌ ๋ ๋๋ ทํ๊ณ ์ ํํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ: ์ด ํญ๋ชฉ์์๋ LTX 2.3์ด ๊ฐ์ฅ ๋์ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ๋ค๋ง daVinci-MagiHuman๋ 4.52์ ์ผ๋ก ๊ฒฝ์๋ ฅ ์๋ ์์น๋ฅผ ๊ธฐ๋กํ๋ฉฐ ์ ๋ฐ์ ์ธ ๋ฐธ๋ฐ์ค๋ฅผ ์ ์งํ์ต๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ: ์ถ๋ก ์๋
H100 GPU ํ๋๋ฅผ ์ฌ์ฉํ์ฌ 5์ด์ง๋ฆฌ ์์์ ์์ฑํ๋ ๋ฐ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ ์ธก์ ํ์ต๋๋ค.
- ๊ธฐ๋ณธ ๋จ๊ณ(256p): 1.6์ด (์์ฑ ์๊ฐ๋ณด๋ค ๋น ๋ฆ)
- ๊ณ ํด์๋(540p): ์ด 8.0์ด (๊ธฐ๋ณธ 1.6์ด + SR 5.1์ด + ๋์ฝ๋ฉ 1.3์ด)
- ์ด๊ณ ํด์๋(1080p): ์ด 38.4์ด ํนํ 540p ํด์๋์์ ์ค์๊ฐ๋ณด๋ค ๋น ๋ฅธ ์๋๋ก ๊ณ ํ์ง ์์์ ์์ฑํ๋ค๋ ์ ์ ์ค๋ฌด ์ ์ฉ์ ์์ด ํฐ ์ฅ์ ์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ๊ฑฐ๋ ์คํ์์ ๋๋ฌ๋ ํ๊ณ
- ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ: ์ ๋ฐ์ ์ธ ๋ฐธ๋ฐ์ค๋ ์ข์ง๋ง, ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ผ๋ง๋ ์ ์งํค๋์ง๋ฅผ ๋ํ๋ด๋ ์งํ์์๋ ๊ฒฝ์ ๋ชจ๋ธ์ธ LTX 2.3์ ๋ฏธ์น์ง ๋ชปํ์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌผ์ฒด๊ฐ ๋ถ์์ฐ์ค๋ฝ๊ฒ ์์ง์ด๊ฑฐ๋ ์ค๋ ฅ์ ์๋ฐํ๋ ํ์์ด ๋ค์ ๋ฐ์ํ ์ ์์ต๋๋ค.
- ์ด๊ณ ํด์๋ ์์ฑ ์๋: 1080p ํด์๋์์๋ ์์ฑ ์๊ฐ์ด 38.4์ด๋ก ๋์ด๋๋ฉฐ, ์ํผ ํด์๋(Super-resolution) ๋จ๊ณ์ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ด 31์ด๋ก ๋๋ถ๋ถ์ ์ฐจ์งํฉ๋๋ค. ์ฆ, ํด์๋๊ฐ ๋์์ง์๋ก SR ๋จ๊ณ์ ๋ณ๋ชฉ์ด ์ฌํ๋ฉ๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- SR ๋ชจ๋ธ์ ์ต์ ํ: Turbo VAE ๋์ฝ๋๋ฅผ ์ผ์ง๋ง, ์ฌ์ ํ ๊ณ ํด์๋ ์ฒ๋ฆฌ ์๊ฐ์ด ๊ธธ๋ฏ๋ก ์ด ๋จ๊ณ๋ฅผ ๋ ๊ฐ๋ณ๊ฒ ๋ง๋ค๊ฑฐ๋ ๋ณ๋ ฌ ์ฒ๋ฆฌํ๋ ๊ธฐ์ ์ด ํ์ํฉ๋๋ค.
- ๋ ๋ค์ํ ์๋๋ฆฌ์ค ํ์ต: ํ์ฌ๋ ์ธ๊ฐ ์ค์ฌ(Human-centric) ์๋๋ฆฌ์ค์ ๊ฐ์ ์ด ์์ง๋ง, ์ผ๋ฐ์ ์ธ ์์ฐ ์์์ด๋ ๋ณต์กํ ๋ฌผ์ฒด ์ํธ์์ฉ ๋ฑ์์์ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๋์ด๊ธฐ ์ํ ๋ฐ์ดํฐ ํ์ฅ์ด ํ์ํ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
- AI ์๋ฐํ ๋ฐ ๋ฒ์ถ์ผ ์ ํ๋ฒ: ํ ์คํธ๋ง ์ ๋ ฅํ๋ฉด ์ ํํ ์ ๋ชจ์๊ณผ ์์ฐ์ค๋ฌ์ด ์ ์ค์ฒ๊ฐ ๋ด๊ธด ์์์ ์ค์๊ฐ ์์ค์ผ๋ก ๋น ๋ฅด๊ฒ ๋ง๋ค ์ ์์ด, ์์๊ณต์ธ์ด๋ ๊ฐ์ธ ํฌ๋ฆฌ์์ดํฐ์ ์ฝํ ์ธ ์ ์์ ํ์ ์ ๊ฐ์ ธ์ฌ ์ ์์ต๋๋ค.
- ๋ค๊ตญ์ด ์์ ์๋ํ: ํ๊ตญ์ด, ์์ด, ์ค๊ตญ์ด, ์ผ๋ณธ์ด ๋ฑ 6๊ฐ๊ตญ์ด๋ฅผ ์ง์ํ๋ฏ๋ก, ํ๋์ ์คํฌ๋ฆฝํธ๋ก ์ฌ๋ฌ ์ธ์ด์ ๋๋น ์์์ ์๋์ผ๋ก ์์ฑํ๋ ์ง์ญํ(Localization) ์๋น์ค์ ๋ฐ๋ก ํ์ฉํ ์ ์์ต๋๋ค.
- ๊ฒ์ ๋ฐ ๋ฉํ๋ฒ์ค NPC: ๋ํ์ ๋ฐ๋ผ ๋ฐ์ํ๋ NPC์ ๋น๋์ค์ ์ค๋์ค๋ฅผ ์ฆ์์์ ์์ฑํ์ฌ ์ฌ์ฉ์ ๊ฒฝํ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
- ํ๋์จ์ด: ๋ ผ๋ฌธ์ ๋ฒค์น๋งํฌ๋ H100 GPU ๊ธฐ์ค์ด์ง๋ง, ๋ชจ๋ธ ์ฆ๋ฅ(Distillation) ๊ธฐ์ ์ ์ ์ฉํ์ฌ ๊ฒฝ๋ํ๋์์ผ๋ฏ๋ก, ๋จ์ผ A100์ด๋ ๊ณ ์ฑ๋ฅ ์๋น์์ฉ GPU(์: RTX 4090)์์๋ ์ถฉ๋ถํ ์ค์ฉ์ ์ธ ์๋๋ก ๊ตฌ๋ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
- ๋ฐ์ดํฐ: ํ์ต์ ์ํด์๋ ๋๊ท๋ชจ์ ๊ณ ํ์ง ํ ์คํธ-๋น๋์ค-์ค๋์ค ์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฉฐ, ํนํ ๋ค๊ตญ์ด ์์ฑ ๋ฐ์ดํฐ๊ฐ ํ๋ณด๋์ด์ผ ์ฑ๋ฅ์ ์ ์งํ ์ ์์ต๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ํธ๋์คํฌ๋จธ(Transformer): ํ ์คํธ๋ ์ด๋ฏธ์ง ๊ฐ์ ๋ฐ์ดํฐ์ ์์์ ๊ด๊ณ๋ฅผ ํ์ตํ๋๋ฐ ํ์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ก, ์ ํ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค.
- ์ ํ ์ดํ ์ (Self-Attention): ์ ๋ ฅ ๋ฐ์ดํฐ ๋ด๋ถ์ ์์๋ค์ด ์๋ก ์ด๋ป๊ฒ ์ฐ๊ด๋์ด ์๋์ง ์ค์ค๋ก ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌธ์ฅ์ ์๋จ์ด๊ฐ ๋ท๋จ์ด์ ์๋ฏธ๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง๋ฅผ ํ์ ํฉ๋๋ค.
- ํ ํฐํ(Tokenization): ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค์ ๊ฐ์ ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ๊ธฐ ์ข์ ์์ ๋จ์์ ์ ์(Integer) ์ํ์ค๋ก ๋ณํํ๋ ๊ณผ์ ์ ๋๋ค.
- ์ ์ฌ ๊ณต๊ฐ(Latent Space): ์๋ณธ ๋ฐ์ดํฐ์ ํต์ฌ ํน์ง์ ์์ถํด ๋์ ์ ์ฐจ์์ ๊ณต๊ฐ์ ๋๋ค. ์ด ๊ณต๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ฉด ๊ณ์ฐ๋์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์์ต๋๋ค.
- ๋ชจ๋ธ ์ฆ๋ฅ(Model Distillation): ํฌ๊ณ ๋ณต์กํ ๋ชจ๋ธ(๊ต์ฌ ๋ชจ๋ธ)์ ์ง์์ ์๊ณ ๊ฐ๋ฒผ์ด ๋ชจ๋ธ(ํ์ ๋ชจ๋ธ)๋ก ์ฎ๊ฒจ, ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ๊ธฐ์ ์ ๋๋ค.
- VAE (Variational Autoencoder): ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์์ถํ๋ค๊ฐ ๋ค์ ๋ณต์ํ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ผ๋ก, ์ด๋ฏธ์ง ์์ฑ ๋ฑ์์ ์ฃผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
- ์ํผ ํด์๋(Super-Resolution): ๋ฎ์ ํด์๋์ ์ด๋ฏธ์ง๋ ๋น๋์ค๋ฅผ ์ธ๊ณต์ง๋ฅ์ ํตํด ๋ํ ์ผ์ ์ถ๊ฐํ์ฌ ๋์ ํด์๋๋ก ๋ณต์ํ๋ ๊ธฐ์ ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | MinerU-Diffusion: Rethinking Documeโฆ | DD-051 |
| ๐ฅ | Omni-WorldBench: Towards a Compreheโฆ | DD-052 |
| ๐ฅ | Speed by Simplicity: A Single-Streaโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | PixelSmile: Toward Fine-Grained Facโฆ | DD-054 |
| 5. | Astrolabe: Steering Forward-Processโฆ | DD-055 |
๐ ์์ฑ์ผ: 2026-03-29 | ๐ค GLM-4.7 Deep Dive