โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-060 DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models
arXiv: 2603.26164 ๊ธฐ๊ด: Peking University Upvotes: 152 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 5
๋ ผ๋ฌธ ๋ฆฌ๋ทฐ: DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ ๋ฐ์ดํฐ ์ค์ฌ ํ์ต(Data-Centric Training) ๋ฐฉ๋ฒ๋ค์ ๋ฐ์ดํฐ ์ ๋ณ, ํผํฉ, ๊ฐ์ค์น ์กฐ์ ๋ฑ์ด ๊ฐ๊ธฐ ๋ค๋ฅธ ์ฝ๋๋ฒ ์ด์ค๋ก ํํธํ๋์ด ์์ด, ์ฐ๊ตฌ์๋ค ๊ฐ์ ๊ณต์ ํ ๋น๊ต์ ์ค๋ฌด ์ ์ฉ์ด ๋งค์ฐ ์ด๋ ค์ ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ ํํธํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LLaMA-Factory ๊ธฐ๋ฐ์ ํตํฉ๋ ํ๋ ์์ํฌ์ธ DataFlex๋ฅผ ์ ์ํ๋ฉฐ, ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ ์์์ด ์๋ ์ต์ ํ์ ํต์ฌ ๋ณ์๋ก ๊ด๋ฆฌํ ์ ์๋ ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ค๋งํธํ ๊ฐ์ธ ํธ๋ ์ด๋์ ๋น์ ํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด๋ฅผ โ์ด๋๊ณผ ๊ฐ์ธ ํธ๋ ์ด๋โ์ ๋น์ ํด ๋ณด๊ฒ ์ต๋๋ค. ์ผ๋ฐ์ ์ธ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ํ์ต์ ๋ง์น ์ด๋ ์ ์์๊ฒ ์ฃผ์ด์ง โ๊ต๋ณธ ์ ์ฒดโ๋ฅผ ๋ฌด์กฐ๊ฑด ์ฒ์๋ถํฐ ๋๊น์ง ์ฝ๊ณ ์ธ์ฐ๊ฒ ํ๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค. ์ ์๊ฐ ์ด๋ฏธ ์๊ณ ์๋ ๋ถ๋ถ์ด๋ , ๋๋ฌด ์ด๋ ค์์ ์์ง ์ดํดํ ์ ์๋ ๋ถ๋ถ์ด๋ ์๊ด์์ด ๋ชจ๋ ๋ด์ฉ์ ๋๊ฐ์ ๋น์ค์ผ๋ก ๊ณต๋ถํ๊ฒ ํ๋ ๊ฒ์ด์ฃ .
๋ฐ๋ฉด, DataFlex๋ ์์์ ์ง์ผ๋ณด๋ โ์ค๋งํธํ ๊ฐ์ธ ํธ๋ ์ด๋โ์ ๊ฐ์ต๋๋ค. ํธ๋ ์ด๋๋ ์ ์๊ฐ ์ด๋์ ํ๋ ๋ชจ์ต(ํ์ต ๊ณผ์ )์ ์ค์๊ฐ์ผ๋ก ๊ด์ฐฐํ๋ฉด์ ์ํฉ์ ๋ง์ถฐ ๋์ ์ผ๋ก ๋์ํฉ๋๋ค. ์ ์์ ๊ทผ์ก(๋ชจ๋ธ ํ๋ผ๋ฏธํฐ)์ด ์ด๋ ๋ถ๋ถ์ ์ฝํ์ง ํ์ ํ์ฌ, ๋ฑ ํ์ํ ๋์๋ง ๊ณจ๋ผ์ ์ง์ค ์ฐ์ต์ํค๊ฑฐ๋(Dynamic Sample Selection), ์ ์ฐ์์ ๊ทผ๋ ฅ ์ด๋์ ๋น์จ์ ์ค์๊ฐ์ผ๋ก ์กฐ์ ํ๊ณ (Domain Mixture Adjustment), ๋ ์ค์ํ ๋์์๋ ๋ฐ๋ณต ํ์๋ฅผ ๋๋ ค์ฃผ๋(Sample Reweighting) ์์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ๋ฐฉ์
DataFlex๋ ํ์ต์ด ์งํ๋๋ ๋์ ์ธ ๊ฐ์ง ์ฃผ์ ๊ธฐ๋ฅ์ ํตํด ๋ฐ์ดํฐ๋ฅผ ๋์ ์ผ๋ก ์ ์ดํฉ๋๋ค. ์ฒซ์งธ, โ์ํ ์ ๋ณโ ๋จ๊ณ์์๋ ๋ชจ๋ธ ํ์ต์ ๊ฐ์ฅ ๋์์ด ๋๋ ๋ฐ์ดํฐ๋ง ๊ณจ๋ผ๋ ๋๋ค. ๋ง์น ํด์ฆ ๊ณต๋ถ๋ฅผ ํ ๋ ์ด๋ฏธ ๋ง์ถ ๋ฌธ์ ๋ ๊ฑด๋๋ฐ๊ณ ํ๋ฆฐ ๋ฌธ์ ์์ฃผ๋ก ๋ค์ ๊ณต๋ถํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์ด๋ ๊ทธ๋ผ๋์ธํธ(Gradient)๋ ์๋ฒ ๋ฉ(Embedding) ๊ฐ์ ์ ํธ๋ฅผ ์ฌ์ฉํด ๋ฐ์ดํฐ์ ์ ์ฉ์ฑ์ ํ๋จํฉ๋๋ค.
๋์งธ, โ๋๋ฉ์ธ ํผํฉ ์กฐ์ โ์ ๋ฐ์ดํฐ์ ์ข ๋ฅ(์: ์ํ, ์ฝ๋ฉ, ์ผ์ ๋ํ ๋ฑ) ๋น์จ์ ํ์ต ์ค๊ฐ์ ๋ฐ๊ฟ ์ ์๊ฒ ํฉ๋๋ค. ์ฒ์์๋ ๊ธฐ์ด๋ฅผ ๋ค์ง๊ธฐ ์ํด ์ผ์ ๋ํ๋ฅผ ๋ง์ด ํ๋ค๊ฐ, ์ค๋ ฅ์ด ๋๋ฉด ์ํ ๋ฌธ์ ๋น์ค์ ๋๋ฆฌ๋ ์์ผ๋ก ์ ๋ต์ ์์ ํ๋ ๊ฒ์ ๋๋ค.
์ ์งธ, โ์ํ ์ฌ๊ฐ์ค์นโ๋ ๊ฐ ๋ฐ์ดํฐ์ ์ค์๋๋ฅผ ๋ค๋ฅด๊ฒ ์ค์ ํฉ๋๋ค. ์ํ์ ์์ฃผ ๋์ค๋ ํต์ฌ ๊ฐ๋ ์ ๊ฐ์ค์น๋ฅผ ๋์ฌ์ ๋ชจ๋ธ์ด ๋ ๊น๊ฒ ํ์ตํ๊ฒ ํ๊ณ , ์ก์์ด ๋ง์ ๋ฐ์ดํฐ๋ ๊ฐ์ค์น๋ฅผ ๋ฎ์ถฐ์ ํ์ต์ ๋ฐฉํดํ์ง ์๊ฒ ํฉ๋๋ค.
ํต์ฌ ๋ฉ์ปค๋์ฆ
๊ธฐ์ ์ ์ผ๋ก DataFlex๋ ๊ธฐ์กด์ LLaMA-Factory ํ๋ จ ๊ณ์ธต์ ํ์ฅ ๊ฐ๋ฅํ ํธ๋ ์ด๋ ์ถ์ํ(Trainer Abstraction)๋ก ๋์ฒดํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ณ๋์ ์ธ๋ถ ํ์ดํ๋ผ์ธ ์์ด๋ ํ๋ จ ๋ฃจํ ๋ด๋ถ์์ ๋ฐ์ดํฐ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ ํํ๋ก ์ฝ๊ฒ ๋ผ์ ๋ฃ์ ์ ์์ต๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ํ์ตํ๋ฉด์ ๋ด๋ฑ๋ ์ค๊ฐ ์ ํธ๋ค(๋ก์ค, ์๋ฒ ๋ฉ ๋ฑ)์ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ค์์ ํ์ตํ ๋ฐ์ดํฐ๋ฅผ ์ฆ์ ๊ฒฐ์ ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ๊ณ ์์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ฐ๊ตฌ์ง์ DataFlex ํ๋ ์์ํฌ๋ฅผ ํตํด 7๊ฐ์ง ๋ฐ์ดํฐ ์ ๋ณ ์๊ณ ๋ฆฌ์ฆ, 2๊ฐ์ง ๋ฐ์ดํฐ ํผํฉ ์๊ณ ๋ฆฌ์ฆ, 1๊ฐ์ง ๋ฐ์ดํฐ ์ฌ๊ฐ์ค์น ์๊ณ ๋ฆฌ์ฆ์ ํฌ๊ด์ ์ผ๋ก ์คํํ์ต๋๋ค. ์คํ์ Open-Hermes-2.5 ๋ฐ์ดํฐ์ ์ 10๋ง ๊ฐ ์์ ๋ฅผ ์ฌ์ฉํด ์งํ๋์์ผ๋ฉฐ, ๋ชจ๋ธ์ ์ฑ๋ฅ์ MMLU ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๊ฒ์ฆ๋์์ต๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก Mistral-7B-v0.1๊ณผ Llama-3.2-3B ๋ ๊ฐ์ง ๋ชจ๋ธ ์ํคํ ์ฒ๋ฅผ ๋์์ผ๋ก ํ๋ผ๋ฏธํฐ ํจ์จ์ ๋ฏธ์ธ ์กฐ์ (PEFT) ๊ธฐ๋ฒ์ธ LoRA๋ฅผ ์ ์ฉํ์ฌ ํ ์คํธํ์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์จ๋ผ์ธ ๋ฐ์ดํฐ ์ ๋ณ ๋ฐฉ์์ธ LESS์ NICE ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ด ๋๋ค ์ ๋ณ์ด๋ ์ ์ ์ธ ์คํ๋ผ์ธ ๋ฐฉ์์ ๋นํด ์๋ฑํ ํจ์จ์ ์์ ์ ์ฆํ์ต๋๋ค. ์ ์ฒด 10๋ง ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ Full-data ํ๋ จ๊ณผ ๋น๊ตํ์ ๋๋, DataFlex๋ฅผ ํตํด ์ ๋ณ๋ ํต์ฌ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ด ์ ์ฌํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ํ์ต ์๊ฐ์ ๋จ์ถํ ์ ์์์ ํ์ธํ์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ์ฑ๊ณผ๋ ๋จ์ํ ์ฑ๋ฅ ์์น ํฅ์ ๊ทธ ์ด์์ ๋๋ค. ์๋ก ๋ค๋ฅธ ์ธํฐํ์ด์ค๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ํ๋์ ํตํฉ๋ ํ๋ ์์ํฌ์์ ์คํํด ๋ด์ผ๋ก์จ, ์๊ณ ๋ฆฌ์ฆ ๊ฐ์ ๊ณต์ ํ ์ฑ๋ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅํด์ก๋ค๋ ์ ์ ๋๋ค. ์ด๋ ํฅํ ๋ฐ์ดํฐ ์ค์ฌ ํ์ต ์ฐ๊ตฌ์ ์ฌํ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฌ๊ฒ ๋์ด๋ ๊ฒฐ์ค์ ๋งบ์์ต๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ DataFlex๊ฐ ํ์ต ๋ฃจํ ๋ด์์ ๋ฐ์ดํฐ ์ต์ ํ๋ฅผ ์ํํจ์ ๋ฐ๋ผ, ๋จ์ํ ์ ์ ํ์ต์ ๋นํด ๊ณ์ฐ ์ค๋ฒํค๋(Computational Overhead)๊ฐ ๋ฐ์ํ ์ ์์์ ์ธ์ ํ๊ณ ์์ต๋๋ค. ๋ฐ์ดํฐ์ ์ ์ฉ์ฑ์ ํ๊ฐํ๊ธฐ ์ํด ์ถ๊ฐ์ ์ธ ์ถ๋ก (Inference)์ด๋ ๊ทธ๋ผ๋์ธํธ ๊ณ์ฐ์ด ํ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ ์ด๋ฌํ ๊ณ์ฐ ๋น์ฉ์ ์ต์ํํ๋ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ๊ณผ ๋๋ถ์ด, ํ์ฌ์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๋์ด ๋ฉํฐ๋ชจ๋ฌ(Multimodal) ๋ฐ์ดํฐ๊น์ง ํ์ฅํ ์ ์๋ ์์คํ ์ค๊ณ๊ฐ ์ ์๋๊ณ ์์ต๋๋ค. ๋ํ, ๋ ๋๊ท๋ชจ์ ๋ถ์ฐ ํ์ต ํ๊ฒฝ์์์ ์์ ์ฑ๊ณผ ํ์ฅ์ฑ์ ๊ฒ์ฆํ๋ ์์ ๋ ๋จ์ ์์ต๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
DataFlex๋ ๊ณ ํ์ง์ ์ ๋ (Alignment) ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๊ฑฐ๋, ๋ ธ์ด์ฆ๊ฐ ๋ง์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํจ์จ์ ์ผ๋ก ์ ์ ํ๊ณ ์ถ์ ๊ธฐ์ ์ด๋ ์ฐ๊ตฌ์์ ๋ฐ๋ก ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ LLaMA-Factory๋ฅผ ์ด๋ฏธ ์ฌ์ฉ ์ค์ธ ํ์ด๋ผ๋ฉด ๋๋กญ์ธ(Drop-in) ๋ฐฉ์์ผ๋ก ๊ต์ฒด๋ง ํ๋ฉด ๋๋ฏ๋ก ๋ง์ด๊ทธ๋ ์ด์ ๋น์ฉ์ด ๋งค์ฐ ๋ฎ์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค ์ธก๋ฉด์์๋ ๋ชจ๋ธ ํ๋ จ์ ์ํ GPU๋ ๋น์ฐํ ํ์ํ๋ฉฐ, ๋ฐ์ดํฐ ์ ๋ณ ์๊ณ ๋ฆฌ์ฆ(ํนํ ์จ๋ผ์ธ ๋ฐฉ์)์ ์คํํ๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ์ฐ์ฐ ์์์ด ์๋ชจ๋ฉ๋๋ค. ํ์ง๋ง ์ฅ๊ธฐ์ ์ผ๋ก๋ ๋ถํ์ํ ๋ฐ์ดํฐ ํ์ต์ ์ค์ฌ์ฃผ์ด ์ ์ฒด ํ๋ จ ์๊ฐ๊ณผ ๋น์ฉ์ ์ ๊ฐํ ์ ์๋ ์ ์ฌ๋ ฅ์ด ํฝ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๋ฐ์ดํฐ ์ค์ฌ AI(Data-Centric AI): ๋ชจ๋ธ ๊ตฌ์กฐ๋ณด๋ค๋ ๋ฐ์ดํฐ์ ํ์ง๊ณผ ์์ ๊ฐ์ ํ์ฌ ์์คํ ์ฑ๋ฅ์ ๋์ด๋ ์ ๊ทผ ๋ฐฉ์์ ๋๋ค.
- LLaMA-Factory: ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ ์ ์๋๋ก ๋์์ฃผ๋ ํตํฉ ํดํท์ ๋๋ค.
- ๋ฏธ์ธ ์กฐ์ (Fine-Tuning): ์ด๋ฏธ ์ฌ์ ํ์ต๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํน์ ์์ ์ด๋ ๋ฐ์ดํฐ์ ์ ๋ง์ถฐ ์ถ๊ฐ์ ์ผ๋ก ํ์ต์ํค๋ ๊ณผ์ ์ ๋๋ค.
- LoRA(Low-Rank Adaptation): ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ์ง ์๊ณ , ์ ์ ์์ ์ถ๊ฐ ํ๋ผ๋ฏธํฐ๋ง ํ์ต์์ผ ํจ์จ์ ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- ๊ทธ๋ผ๋์ธํธ(Gradient): ์ ๊ฒฝ๋ง ํ์ต ์ ์์ค ํจ์๋ฅผ ์ต์ํํ๊ธฐ ์ํด ๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํด์ผ ํ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ๋ฅผ ๋ํ๋ด๋ ๊ฐ์ ๋๋ค.
- ์ถ๋ก (Inference): ํ์ต์ด ์๋ฃ๋ ๋ชจ๋ธ์ด ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ์์ธก์ด๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ ๊ณผ์ ์ ๋๋ค.
- MMLU(Massive Multitask Language Understanding): ์ธ์ด ๋ชจ๋ธ์ ์ง์๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ค์ํ ๋ถ์ผ์ ๋ฌธ์ ๋ฅผ ํตํด ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | CARLA-Air: Fly Drones Inside a CARLโฆ | DD-056 |
| ๐ฅ | FIPO: Eliciting Deep Reasoning withโฆ | DD-057 |
| ๐ฅ | ClawKeeper: Comprehensive Safety Prโฆ | DD-058 |
| 4. | ShotStream: Streaming Multi-Shot Viโฆ | DD-059 |
| 5. | DataFlex: A Unified Framework for Dโฆ | ๐ ํ์ฌ ๋ฌธ์ |
๐ ์์ฑ์ผ: 2026-04-05 | ๐ค GLM-4.7 Deep Dive