โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-057 FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
arXiv: 2603.19835 ๊ธฐ๊ด: Qwen Upvotes: 313 | Comments: 7 ์์: ์ด๋ฒ ์ฃผ Top 2
์๋ ํ์ธ์! AI/ML ์ ๋ฌธ๊ฐ๋ก์ ์ด ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ ์์ฃผ ์ฝ๊ฒ, ํ์ง๋ง ๊น์ด ์๊ฒ ๋ถ์ํด ๋๋ฆด๊ฒ์. ์ด ๋ ผ๋ฌธ์ ์ต๊ทผ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ด์ฌ๋ฆฌ๋ ํต์ฌ ๊ธฐ์ ์ธ ๊ฐํ ํ์ต(RL)์ ์ ๊ตํ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
์, ์์ํด ๋ณผ๊น์?
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
์ด ๋ ผ๋ฌธ์ ํ์ฌ ๊ฐ์ฅ ํซํ ๋ถ์ผ์ธ โํ ์คํธ ํ์(Test-time) ์ค์ผ์ผ๋งโ, ์ฆ ๋ชจ๋ธ์ด ๋ต์ ์์ฑํ ๋ ๋ ๋ง์ ์๊ฐ๊ณผ ์์์ ์จ์ ๊น๊ฒ ์๊ฐํ๊ฒ ๋ง๋๋ ๊ธฐ์ ์ ํจ์จ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๋์์ต๋๋ค. ๊ธฐ์กด์ ๊ฐํ ํ์ต ๋ฐฉ์์ธ GRPO๋ DAPO๋ ๋ต์ด ๋ง์ผ๋ฉด ๊ทธ ๊ณผ์ ์ ์ฐ์ธ โ๋ชจ๋ ๋จ์ดโ๋ฅผ ๋๊ฐ์ด ์นญ์ฐฌํ๋ ๋จ์ํ ๋ฐฉ์์ ์จ์, ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ผ์ ์์ค ์ด์ ์ฑ์ฅํ์ง ๋ชปํ๋ ๋ณ๋ชฉ ํ์์ ๊ฒช์์ต๋๋ค. FIPO๋ ๋จ์ด ํ๋ํ๋๊ฐ ๋ฏธ๋์ ๋ต๋ณ ํ๋ฆ์ ๋ฏธ์น๋ ์ํฅ๋ ฅ์ ๊ณ์ฐํ์ฌ, ์ ๋ง ์ค์ํ ๋ ผ๋ฆฌ์ ์ ํ์ ์ ์ ํํ ์ง์ด๋ด๊ณ ๋ณด์ํด ์ค์ผ๋ก์จ ์ด ํ๊ณ๋ฅผ ๋ฐ์ด๋์์ต๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ์๋ฆฌ์ฌ ํ๊ฐํ๊ธฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ โ๋ฏธ์๋ญ ๋ ์คํ ๋์ ์๋ฆฌ์ฌ ํ๊ฐโ์ ๋น์ ํด ๋ณผ๊น์?
-
๊ธฐ์กด ๋ฐฉ์(ORM, GRPO)์ ๋ฌธ์ ์ : ์ฌ์ฌ์์์ด ์๋ฆฌ๋ฅผ ๋จน์ด๋ณด๊ณ โ๋ง์๋ค!โ๋ผ๊ณ ํ๊ฐํฉ๋๋ค. ๊ทธ๋ฐ๋ฐ ๋ณด์์ ์ค ๋, ์๊ธ์ ๋ฟ๋ฆฐ ์๊ฐ, ํฌ์ ๋ฌ๊ตฐ ์๊ฐ, ์ ์๋ฅผ ๋ฆ์ ์๊ฐ ๋ฑ ์๋ฆฌ์ ๋ชจ๋ ๊ณผ์ ์ ๋๊ฐ์ ์ ์๋ฅผ ์ค๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์ค์ํ ์๊ฐ(์: ์คํ ์ดํฌ๋ฅผ ๊ตฝ๋ ํ์ด๋ฐ)๊ณผ ๋ ์ค์ํ ์๊ฐ(์: ์์น๋ง ๋๋ฅด๊ธฐ)์ด ๊ตฌ๋ถ๋์ง ์์, ์๋ฆฌ์ฌ๋ ๋ฌด์์ด ์ง์ง ์ค์ํ์ง ๋ฐฐ์ฐ์ง ๋ชปํฉ๋๋ค.
-
FIPO์ ํด๊ฒฐ์ฑ : FIPO๋ ์๋ฆฌ์ ํน์ ์๊ฐ(ํ ํฐ)์ด ๋ค์ ์๋ฆฌ ๊ณผ์ (๋ฏธ๋ ํธ๋์ ํ ๋ฆฌ)์ ์ผ๋ง๋ ํฌ๊ฒ ๋ฐ๊พธ์ด ๋์๋์ง๋ฅผ ์ธก์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ๊ฐ์ ๋ง์ถ๋ ์๊ฐโ์ด ๊ทธ ์ดํ์ ๋ชจ๋ ๋ง์ ๊ฒฐ์ ์ง๋๋ค๋ฉด, ์ด ์๊ฐ์ ์์ฒญ๋ ๋ณด์์ ์ค๋๋ค. ๋ฐ๋ฉด, ๋จ์ํ ๋ฌผ์ ๋ถ๋ ํ์๊ฐ ๋ง์ ํฐ ๋ณํ๋ฅผ ์ฃผ์ง ์๋๋ค๋ฉด ๋ฎ์ ๋ณด์์ ์ค๋๋ค. ์ฆ, **๊ณผ์ ์ ์ํฅ๋ ฅ(Influence)**์ ๋ฐ์ ธ์ ์ ์๋ฅผ ๋ค๋ฅด๊ฒ ๋งค๊ธฐ๋ ๊ฒ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
-
ํ๋ฅ ๋ณํ(Probability Shift) ๊ด์ฐฐํ๊ธฐ: ๋ชจ๋ธ์ด ํ๋ จ๋๋ฉด์ ํน์ ๋จ์ด๋ฅผ ์ ํํ ํ๋ฅ ์ด ์ผ๋ง๋ ๋ณํ๋์ง ๋ด ๋๋ค. ์ด์ ์ ์ฑ ๊ณผ ํ์ฌ ์ ์ฑ ์ฌ์ด์ ํ๋ฅ ์ฐจ์ด์ธ ๋ธํ ๋ก๊ทธ p(Delta log p)๋ฅผ ๊ณ์ฐํ๋๋ฐ, ์ด๊ฒ ๋จ์ด ์ ํ์ โ์ ํธโ๊ฐ ๋ฉ๋๋ค.
-
๋ฏธ๋ ์ํฅ๋ ฅ(Future-KL) ์ธก์ ํ๊ธฐ: ์ด๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ํ์ด๋ผ์ดํธ์ ๋๋ค. ์ง๊ธ ์ ํํ ๋จ์ด ๋๋ฌธ์, ๊ทธ ๋ค์ ์ด์ด์ง ๋ฌธ์ฅ๋ค์ ํ๋ฆ(๋ฏธ๋์ ์ ์ฑ ๋ถํฌ)์ด ์ผ๋ง๋ ๋ฐ๋๋์ง KL ๋ฐ์ฐ(KL Divergence)์ผ๋ก ์ธก์ ํฉ๋๋ค. ๋ด๊ฐ ์ง๊ธ โAโ๋ผ๊ณ ๋งํด์ ๋ค์ ๋ด์ฉ์ด ์์ ํ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ค๋ฉด, ์ด โAโ๋ ์ ๋ง ์ค์ํ ๋จ์ด์ ๋๋ค.
-
๋ฐ๋ ๋์ ์ด์ (Dense Advantage) ๊ณ์ฐ: ์ด ์ํฅ๋ ฅ์ ๋ฐํ์ผ๋ก ๊ฐ ๋จ์ด์ ์ ์(Advantage)๋ฅผ ๋งค๊น๋๋ค. ์ค์ํ ๋ ผ๋ฆฌ์ ์ ํ์ (Pivot)์๋ ๋์ ์ ์๋ฅผ, ์ธ๋ฐ์๋ ๋ง(Trivial token)์๋ ๋ฎ์ ์ ์๋ฅผ ์ค๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ โ์, ์ด๋ด ๋ ์ด ๋จ์ด๋ฅผ ์จ์ผ ๋ต์ด ๊ธธ์ด์ง๊ณ ์ ํํด์ง๋๊ตฌ๋!โ๋ฅผ ๊นจ๋ซ๊ฒ ๋ฉ๋๋ค.
ํต์ฌ ์์๊ณผ ์๊ณ ๋ฆฌ์ฆ
๊ฐ์ฅ ์ค์ํ ๊ฐ๋ ์ ๋ฏธ๋ KL ๋ฐ์ฐ์ ํ์ฉํ ์ด์ (Advantage) ์ฌ์ ์์ ๋๋ค. ๊ธฐ์กด PPO๊ฐ ์ ์ฒด ๊ฒฐ๊ณผ์ ๋ํด ๊ท ์ผํ ์ ์๋ฅผ ์คฌ๋ค๋ฉด, FIPO๋ ์๊ฐ ๋จ๊ณ t์์์ ๋ฏธ๋ KL ํฉ์ ๊ฐ์ค์น๋ก ์ฌ์ฉํ์ฌ ์ ์๋ฅผ ์กฐ์ ํฉ๋๋ค.
๊ฐ๋จํ ํํํ์๋ฉด, ๋ชจ๋ธ์ ํ์ต ๋ชฉํ๋ ๋จ์ํ ์ ๋ต์ ๋ง์ถ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ, ์์ ์ ํ๋์ด ์ดํ์ ํ๋ ๋ถํฌ๋ฅผ ์ผ๋ง๋ ์๋ฏธ ์๊ฒ ๋ณํ์ํค๋์ง๋ฅผ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ฐ์ดํธ๋๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ โ์ํํธ ๋์ผ์ด ์๋์ฐ(Soft decay window)โ ์ ๋ต์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ๋ฐ๋ก ๋ค์ ๋จ์ด์ ๋ฏธ์น๋ ์ํฅ์ ๊ฐ์ฅ ์ค์ํ๊ฒ ๋ณด๋ ์์ฃผ ๋จผ ๋ฏธ๋์ ์ํฅ์ ์กฐ๊ธ์ฉ ํฌ์์์ผ ๋ฐ์ํฉ๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ๋ ผ๋ฌธ์ ์ฑ๊ณผ๋ ๋จ์ํ ์ฑ๋ฅ ์์น ์์น์ ๋์ด, ๋ชจ๋ธ์ด โ์๊ฐํ๋ ๋ฐฉ์โ ์์ฒด๋ฅผ ๋ฐ๊ฟ๋ฒ๋ ธ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ๊น์ต๋๋ค.
- ํ ์คํธ ๋ฒค์น๋งํฌ: ์ฃผ๋ก ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ AIME 2024 ๋ฐ์ดํฐ์ ๊ณผ Qwen2.5-32B ๋ชจ๋ธ์ ์ฌ์ฉํ์ต๋๋ค.
- ์ฌ๊ณ ์ ๊ธธ์ด(CoT Length) ํญ๋ฐ์ ์ฆ๊ฐ: ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ(DAPO ๋ฑ)์ ์ฝ 4,000 ํ ํฐ ์ ๋์์ ์๊ฐ์ ํ๋ฆ์ด ๋ฉ์ถ๋ โ๊ธธ์ด ์ ์ฒด ํ์โ์ ๋ณด์์ต๋๋ค. ํ์ง๋ง FIPO๋ฅผ ์ ์ฉํ์ ํ๊ท ์ฌ๊ณ ์ฐ์(Chain-of-Thought) ๊ธธ์ด๊ฐ 10,000 ํ ํฐ์ ๋์ด์ ๊ณ์ ์ฆ๊ฐํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋๊น ์์ด ๊น์ด ์๋ ๋ ผ๋ฆฌ๋ฅผ ์ด์ด๊ฐ ์ ์๊ฒ ๋์์์ ์๋ฏธํฉ๋๋ค.
- ์ ํ๋(Accuracy) ํฅ์: AIME 2024 Pass@1 ์งํ์์ ๊ธฐ์กด ๋ฐฉ์์ด ์ฝ 50.0%์ ์ฑ๋ฅ์ ๋ณด์ธ ๋ฐ๋ฉด, FIPO๋ ์ด๋ฅผ ํฌ๊ฒ ๋ฐ์ด๋๋ ์ ์ (Peak) ์ฑ๋ฅ์ ๊ธฐ๋กํ์ต๋๋ค(๋ ผ๋ฌธ ์ด๋ก์ ๋ฐ๋ฅด๋ฉด 50%์์ ์ ์๋ฏธํ๊ฒ ์์นํ ์์น ๊ธฐ๋ก). ๋จ์ํ ๊ธธ์ด๋ง ๋์ด๋ ๊ฒ์ด ์๋๋ผ, ๊ทธ ๊ธธ์ด์ง ์๊ฐ ์์ ์ ๋ต์ ์ด๋์ด๋ด๋ ๋ ผ๋ฆฌ๊ฐ ํฌํจ๋์๋ค๋ ๋ป์ ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ: ๋ชจ๋ ๋จ์ด์ ๋ํด ๋ฏธ๋์ ํธ๋์ ํ ๋ฆฌ(๋ฌธ๋งฅ)๋ฅผ ๊ณ ๋ คํ์ฌ KL ๋ฐ์ฐ์ ๊ณ์ฐํด์ผ ํ๋ฏ๋ก, ๊ธฐ์กด GRPO๋ DAPO ๋๋น ์ฐ์ฐ๋์ด๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๋์ด๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ์ต์ ํํ๋ ๊ธฐ์ ์ด ์ถ๊ฐ๋ก ํ์ํ ์ ์์ต๋๋ค.
- ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฏผ๊ฐ์ฑ: ๋ฏธ๋์ ์ํฅ์ ์ผ๋ง๋ ๋ฐ์ํ ์ง ๊ฒฐ์ ํ๋ ๊ฐ๊ฐ์จ(Discount factor)์ด๋ ์๋์ฐ ํฌ๊ธฐ ์ค์ ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง ์ ์์ผ๋ฏ๋ก, ์ด๋ฅผ ์๋์ผ๋ก ํ๋ํ๋ ์ฐ๊ตฌ๊ฐ ํ์ํ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
- ์ ์ฉ ๋ถ์ผ: ๋ณต์กํ ์ํ ๋ฌธ์ ํ์ด, ๊ธด ์ฝ๋ ์์ฑ, ๋ณต์กํ ๋ ผ๋ฆฌ๊ฐ ํ์ํ ๋ฒ๋ฅ ์ด๋ ์๋ฃ ๋ถ์ผ์ ์ถ๋ก ์์คํ ๊ตฌ์ถ์ ์ฆ์ ์ ์ฉํ ์ ์์ต๋๋ค. ํนํ โ๊น์ ์๊ฐ(Deep Reasoning)โ์ด ํ์ํ ๊ณณ์์ ํจ๊ณผ๋ฅผ ๋ฐํํฉ๋๋ค.
- ํ์ํ ๋ฆฌ์์ค: ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ์์ฒด์ ๋ํ ๊ฐํ ํ์ต ํ๋ จ์ด๋ฏ๋ก, ์์ญ ์ฅ ์ด์์ ๊ณ ์ฑ๋ฅ GPU(A100/H100) ํด๋ฌ์คํฐ ํ๊ฒฝ๊ณผ ๋ฐฉ๋ํ ์ถ๋ก ๋ฐ์ดํฐ์ ์ด ํ์ํฉ๋๋ค. ๊ฐ๋ฐ์ ๊ฐ์ธ์ด๋ ์๊ท๋ชจ ํ๋ณด๋ค๋ ๋๊ท๋ชจ AI ์ฐ๊ตฌ์๋ ๊ธฐ์ ์์ ์ ํฉํ ๊ธฐ์ ์ ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- ๊ฐํ ํ์ต(Reinforcement Learning): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ ๋๋ค.
- PPO(Proximal Policy Optimization): ์ ์ฑ ์ ์ ๋ฐ์ดํธํ ๋ ๋๋ฌด ํฐ ๋ณํ๋ฅผ ๋ง์ ํ์ต์ ์์ ์ ์ผ๋ก ๋ง๋๋ ๋ํ์ ์ธ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
- KL ๋ฐ์ฐ(KL Divergence): ๋ ํ๋ฅ ๋ถํฌ๊ฐ ์๋ก ์ผ๋ง๋ ๋ค๋ฅธ์ง๋ฅผ ์ธก์ ํ๋ ๊ฐ์ ๋๋ค. ๋ชจ๋ธ์ด ํ๋ จ ์ ํ๋ก ์ผ๋ง๋ ๋ฌ๋ผ์ก๋์ง๋ฅผ ๋ณผ ๋ ์๋๋ค.
- Chain-of-Thought(CoT): ๋ชจ๋ธ์ด ๋ต์ ๋ฐ๋ก ๋งํ์ง ์๊ณ , ์ฌ๋์ฒ๋ผ ์ค๊ฐ ๊ณผ์ ์ ๋จ๊ณ์ ์ผ๋ก ์๊ฐํ๋ฉฐ ์ถ๋ก ํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ด์ ํจ์(Advantage Function): ํน์ ์ํ์์ ์ด๋ค ํ๋์ ์ทจํ์ ๋, ํ๊ท ์ ์ธ ๊ธฐ๋๊ฐ๋ณด๋ค ์ผ๋ง๋ ๋ ์ด๋์ธ์ง๋ฅผ ๋ํ๋ด๋ ์ฒ๋์ ๋๋ค.
- GRPO(Group Relative Policy Optimization): ํฌ๋ฆฌํฑ(๊ฐ์น ํ๊ฐ์) ๋คํธ์ํฌ ์์ด, ์ฌ๋ฌ ๊ฐ์ ์ํ ๊ทธ๋ฃน์ ๋น๊ตํ์ฌ ๋ณด์์ ์ถ์ ํ๋ ์ต๊ทผ LLM ๊ฐํ ํ์ต ๋ฐฉ์์ ๋๋ค.
- ํ ํฐ(Token): ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด ๋ชจ๋ธ์ด ์ฌ์ฉํ๋ ์ต์ ๋จ์์ ๋๋ค. ๋จ์ด๋ ๋ฌธ์ ์กฐ๊ฐ์ด ๋ ์ ์์ต๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | CARLA-Air: Fly Drones Inside a CARLโฆ | DD-056 |
| ๐ฅ | FIPO: Eliciting Deep Reasoning withโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| ๐ฅ | ClawKeeper: Comprehensive Safety Prโฆ | DD-058 |
| 4. | ShotStream: Streaming Multi-Shot Viโฆ | DD-059 |
| 5. | DataFlex: A Unified Framework for Dโฆ | DD-060 |
๐ ์์ฑ์ผ: 2026-04-05 | ๐ค GLM-4.7 Deep Dive