โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-043 OpenClaw-RL: Train Any Agent Simply by Talking

arXiv: 2603.10165 ๊ธฐ๊ด€: Princeton AI Lab Upvotes: 90 | Comments: 3 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 3


๋…ผ๋ฌธ ๋ฆฌ๋ทฐ: OpenClaw-RL

1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

ํ˜„์žฌ์˜ AI ์—์ด์ „ํŠธ๋“ค์€ ์‚ฌ์šฉ์ž์™€์˜ ์ƒํ˜ธ์ž‘์šฉ์ด๋‚˜ ๋„๊ตฌ ์‹คํ–‰ ๊ฒฐ๊ณผ๋ฅผ ๋‹จ์ˆœํžˆ ๋‹ค์Œ ํ–‰๋™์„ ์œ„ํ•œ ๋งฅ๋ฝ์œผ๋กœ๋งŒ ์‚ฌ์šฉํ•  ๋ฟ, ์‹ค์‹œ๊ฐ„ ํ•™์Šต์˜ ๊ธฐํšŒ๋กœ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•˜๊ณ  ์žˆ๋Š” ์ž์› ๋‚ญ๋น„ ํ˜„์ƒ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ์ด๋Ÿฌํ•œ โ€˜๋‹ค์Œ ์ƒํƒœ(Next-State)โ€™ ์‹ ํ˜ธ๋ฅผ ํ‰๊ฐ€์™€ ์ง€์‹œ ์ •๋ณด๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ, ๊ฐœ์ธ ๋Œ€ํ™”๋ถ€ํ„ฐ ๋ณต์žกํ•œ ์†Œํ”„ํŠธ์›จ์–ด ์ž‘์—…๊นŒ์ง€ ๋ชจ๋“  ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ฉ๋œ ๊ฐ•ํ™” ํ•™์Šต ๋ฃจํ”„๋กœ ์ฆ‰์‹œ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์ •์  ๋ฐ์ดํ„ฐ์…‹์— ์˜์กดํ•œ ์˜คํ”„๋ผ์ธ ํ•™์Šต ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๋„˜์–ด, ๋ฐฐํฌ๋œ ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋Š๊น€ ์—†์ด ์ง„ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ๋‹ค๋Š” ์ ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ : โ€œ์š”๋ฆฌ์‚ฌ์™€ ์†๋‹˜์˜ ํ”ผ๋“œ๋ฐฑโ€

์ด ์‹œ์Šคํ…œ์„ ๋Š์ž„์—†์ด ์š”๋ฆฌ๋ฅผ ๋‚ด๋†“๋Š” ์Šค๋งˆํŠธ ๋กœ๋ด‡ ์š”๋ฆฌ์‚ฌ๋ผ๊ณ  ์ƒ์ƒํ•ด ๋ณด์„ธ์š”. ๊ธฐ์กด์˜ AI ์—์ด์ „ํŠธ๋Š” ์†๋‹˜์ด ์Œ์‹์„ ๋จน๊ณ  ๋‚œ ํ›„์˜ ๋ฐ˜์‘(๋‹ค์Œ ์ƒํƒœ ์‹ ํ˜ธ)์„ ๋ฌด์‹œํ•˜๊ฑฐ๋‚˜, ๋‹จ์ง€ ๋‹ค์Œ ์š”๋ฆฌ๋ฅผ ์ค€๋น„ํ•˜๊ธฐ ์œ„ํ•œ ์ฐธ๊ณ  ์ž๋ฃŒ๋กœ๋งŒ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, OpenClaw-RL์€ ์†๋‹˜์˜ ๋ชจ๋“  ๋ฐ˜์‘์„ ํ•™์Šต ๊ธฐํšŒ๋กœ ์‚ผ์Šต๋‹ˆ๋‹ค. ์†๋‹˜์ด โ€œ๋ง›์žˆ๋‹คโ€๊ณ  ๋งํ•˜๊ฑฐ๋‚˜ ๊นจ๋—์ด ๋จน์œผ๋ฉด ์ด๋ฅผ ์ ์ˆ˜(+1)๋กœ ๊ธฐ๋กํ•˜์—ฌ ์š”๋ฆฌ๋ฒ•์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์†๋‹˜์ด โ€œ์งœ๋‹คโ€๋ฉฐ ์กฐ๋ฏธ๋ฃŒ ํ†ต์„ ๊ฐ€๋ฆฌํ‚ค๋ฉด, ๋‹จ์ˆœํžˆ ์‹คํŒจ(-1)๋ผ๊ณ ๋งŒ ์ƒ๊ฐํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ โ€œ์†Œ๊ธˆ์„ ๋œ ๋„ฃ์–ด๋ผโ€๋Š” ๊ตฌ์ฒด์ ์ธ ์ง€์‹œ ์‚ฌํ•ญ์œผ๋กœ ํ•ด์„ํ•˜์—ฌ ์š”๋ฆฌ๋ฒ•์„ ์ฆ‰์‹œ ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ์š”๋ฆฌ๋ฅผ ํ•˜๊ณ , ์„œ๋น™์„ ํ•˜๊ณ , ํ‰๊ฐ€๋ฅผ ๋ฐ›๋Š” ๊ณผ์ •์„ ๋”ฐ๋กœ๋”ฐ๋กœ ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š๊ณ  ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜๋ฉฐ ์‹ค๋ ฅ์ด ์ ์  ๋Š˜์–ด๊ฐ‘๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

์ด ์‹œ์Šคํ…œ์€ ํฌ๊ฒŒ ๋„ค ๊ฐ€์ง€ ๋…๋ฆฝ์ ์ธ ํŒŒ์ดํ”„๋ผ์ธ์ด ๋น„๋™๊ธฐ์ ์œผ๋กœ ๋Œ์•„๊ฐ€๋ฉฐ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

์ฒซ์งธ, ์ •์ฑ… ์„œ๋น™(Policy Serving) ๋‹จ๊ณ„์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์— ์ฆ‰๊ฐ ๋ฐ˜์‘ํ•˜์—ฌ ํ–‰๋™์„ ์ทจํ•ฉ๋‹ˆ๋‹ค. ๋‘˜์งธ, ํ™˜๊ฒฝ ํ˜ธ์ŠคํŒ…(Environment Hosting) ๋‹จ๊ณ„์—์„œ ๊ทธ ํ–‰๋™์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ(์‚ฌ์šฉ์ž์˜ ๋‹ต์žฅ, ํ„ฐ๋ฏธ๋„ ์‹คํ–‰ ๊ฒฐ๊ณผ ๋“ฑ)์ธ ๋‹ค์Œ ์ƒํƒœ ์‹ ํ˜ธ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ์…‹์งธ, ๋ณด์ƒ ํŒ์ •(Reward Judging) ๋‹จ๊ณ„์—์„œ ์ˆ˜์ง‘๋œ ์‹ ํ˜ธ๋ฅผ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š” PRM(Process Reward Model)์ด๋ผ๋Š” ์‹ฌํŒ์ด โ€œ์ด ํ–‰๋™์€ ์ข‹์•˜๋‹ค(+1), ๋‚˜๋นด๋‹ค(-1), ์•„๋‹ˆ๋ฉด ๊ทธ์ € ๊ทธ๋žฌ๋‹ค(0)โ€œ๊ณ  ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. ๋˜ํ•œ ์˜ค๋ฅ˜ ๋กœ๊ทธ ๋“ฑ์—์„œ โ€œ์ด๋ ‡๊ฒŒ ๊ณ ์ณ๋ผโ€๋ผ๋Š” ํžŒํŠธ๋„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. ๋„ท์งธ, ์ •์ฑ… ํ›ˆ๋ จ(Policy Training) ๋‹จ๊ณ„์—์„œ ์ด ์ ์ˆ˜์™€ ํžŒํŠธ๋ฅผ ์ด์šฉํ•ด ์—์ด์ „ํŠธ์˜ ๋‘๋‡Œ(๋ชจ๋ธ)๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์„œ๋น™์ด ๋ฉˆ์ถ”์ง€ ์•Š๊ณ  ๊ณ„์† ์ง„ํ–‰๋˜๋Š” ๋™์•ˆ ๋ฐฑ๊ทธ๋ผ์šด๋“œ์—์„œ ์กฐ์šฉํžˆ ์ผ์–ด๋‚ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜: PPO๋ฅผ ํ™œ์šฉํ•œ ์ด์ง„ ๊ฐ•ํ™” ํ•™์Šต

์ด ๋…ผ๋ฌธ์€ ํ‘œ์ค€์ ์ธ PPO(Proximal Policy Optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋ณ€ํ˜•ํ•˜์—ฌ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ์˜ ํ–‰๋™์ด ์ข‹์€์ง€ ๋‚˜์œ์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ์ฒ™๋„์ธ ์–ด๋“œ๋ฐดํ‹ฐ์ง€(Advantage, $A_t$)๋ฅผ PRM์ด ํŒ์ •ํ•œ ์ ์ˆ˜($r_{final}$)๋กœ ์ง์ ‘ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.

์†์‹ค ํ•จ์ˆ˜(Loss Function)๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ด์ „๋ณด๋‹ค ๋” ์ข‹์€ ํ–‰๋™์„ ํ•  ํ™•๋ฅ ์„ ๋†’์ด๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์‹ $\mathcal{L}_{pg}$๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ทจํ•œ ํ–‰๋™์˜ ํ™•๋ฅ  ๋น„์œจ($\rho_t$)๊ณผ ๋ณด์ƒ($A_t$)์„ ๊ณฑํ•˜์—ฌ ๊ธฐ๋Œ€๊ฐ’์„ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— $\text{clip}$ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋„ˆ๋ฌด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ๋ณ€ํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๋Š” ์•ˆ์ „์žฅ์น˜๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ํŠน์ • ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜(์˜ˆ: SOTA ๋Œ€๋น„ 10% ํ–ฅ์ƒ ๋“ฑ)๋ฅผ ๊ตฌ์ฒด์ ์ธ ์ˆ˜์น˜๋กœ ์ œ๊ณตํ•˜๊ธฐ๋ณด๋‹ค๋Š”, ์„œ๋กœ ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ ํ™˜๊ฒฝ(๊ฐœ์ธ ๋Œ€ํ™”, ํ„ฐ๋ฏธ๋„, GUI, ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ๋“ฑ)์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ด์งˆ์ ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ๊ฐ•ํ™” ํ•™์Šต ์‹œ์Šคํ…œ์œผ๋กœ ์„ฑ๊ณต์ ์œผ๋กœ ๋ณ€ํ™˜ํ–ˆ์Œ์„ ์ž…์ฆํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค.

ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ์€ ํฌ๊ฒŒ ๊ฐœ์ธ ์—์ด์ „ํŠธ๋ฅผ ์œ„ํ•œ ๋Œ€ํ™”ํ˜• ํ™˜๊ฒฝ๊ณผ ์ผ๋ฐ˜์ ์ธ ๋„๊ตฌ ์‚ฌ์šฉ์ด ๊ฐ€๋Šฅํ•œ ํ„ฐ๋ฏธ๋„ ๋ฐ GUI ํ™˜๊ฒฝ์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ๋Š” ๋น„๋™๊ธฐ ํŒŒ์ดํ”„๋ผ์ธ(Asynchronous Pipeline) ์„ค๊ณ„๋ฅผ ํ†ตํ•ด, ๊ธด ์ž‘์—… ์ˆ˜ํ–‰ ์‹œ๊ฐ„์ด ๋ฐœ์ƒํ•˜๋”๋ผ๋„ ํ•™์Šต ๊ณผ์ •์ด ๋ฉˆ์ถ”์ง€ ์•Š๊ณ  ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ ์„œ๋น„์Šค ํ™˜๊ฒฝ์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์ง€์†์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ํ•„์ˆ˜์ ์ธ ๊ธฐ์ˆ ์  ์žฅ๋ฒฝ์„ ํ•ด๊ฒฐํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋‹จ์ˆœํ•œ ์„ฑ๊ณต/์‹คํŒจ ๋ณด์ƒ์„ ๋„˜์–ด ์‚ฌ์šฉ์ž์˜ ๋ฐ˜์‘์ด๋‚˜ ์˜ค๋ฅ˜ ๋ฉ”์‹œ์ง€ ํŠธ๋ ˆ์ด์Šค๋ฅผ ์„ธ๋ฐ€ํ•œ ํ•™์Šต ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” PRM ํŒ์ •๊ธฐ์˜ ํšจ์œจ์„ฑ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๋“ค์€ ์‚ฌ์šฉ์ž์˜ ํ”ผ๋“œ๋ฐฑ์ด ํ•ญ์ƒ ๋ช…ํ™•ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ํ•œ๊ณ„๋กœ ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ โ€œ๊ธ€์Ž„์š”โ€๋ผ๊ณ  ๋ชจํ˜ธํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๋ฉด ์‹œ์Šคํ…œ์ด ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ• ์ง€ ์• ๋งคํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿด ๊ฒฝ์šฐ ์‹œ์Šคํ…œ์€ ์ƒํ™ฉ์— ๋งž์ถฐ ์ถ”์ •ํ•˜๊ฒŒ ๋˜์ง€๋งŒ, ์‚ฌ์šฉ์ž๊ฐ€ ๋” ๋ช…ํ™•ํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๋„๋ก ์œ ๋„ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, ์ด ์‹œ์Šคํ…œ์€ PRM ํŒ์ •๊ธฐ์™€ OPD(On-Policy Distillation)์™€ ๊ฐ™์€ ์ถ”๊ฐ€์ ์ธ ๋ชจ๋ธ ๋ฐ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํ•„์š”๋กœ ํ•˜๋ฏ€๋กœ ์‹œ์Šคํ…œ ์ „์ฒด์˜ ๋ณต์žก๋„๊ฐ€ ๋†’์•„์ง‘๋‹ˆ๋‹ค. ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๊ตฌ์„ฑ ์š”์†Œ๋“ค์„ ๋” ๊ฐ€๋ณ๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜๊ฑฐ๋‚˜, ์• ๋งคํ•œ ํ”ผ๋“œ๋ฐฑ์„ ๋” ์ •๊ตํ•˜๊ฒŒ ํ•ด์„ํ•˜๋Š” ํŒ๋‹จ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์ด ๊ธฐ์ˆ ์€ ์‹ค์ œ ์„œ๋น„์Šค๋˜๊ณ  ์žˆ๋Š” ๋ชจ๋“  ์ข…๋ฅ˜์˜ AI ์—์ด์ „ํŠธ์— ์ฆ‰์‹œ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์‚ฌ์šฉ์ž์™€ ์ง์ ‘ ๋Œ€ํ™”ํ•˜๋Š” ๊ฐœ์ธ ๋น„์„œ๋‚˜, ์ฝ”๋”ฉ์„ ๋„์™€์ฃผ๋Š” ๊ฐœ๋ฐœ์ž ๋„๊ตฌ(Copilot ๋“ฑ), ์›น ๋ธŒ๋ผ์šฐ์ €๋ฅผ ์ œ์–ดํ•˜๋Š” ์ž๋™ํ™” ์—์ด์ „ํŠธ ๋“ฑ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

์ ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ๋ชจ๋ธ์„ ์„œ๋น™ํ•˜๋Š” ์ธํ”„๋ผ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ณ„๋„์˜ ํ™˜๊ฒฝ ์„œ๋ฒ„, ํŒ์ • ๋ชจ๋ธ(Judge), ํ›ˆ๋ จ์šฉ ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ๋™์‹œ์— ๊ตฌ์ถ•๋˜์–ด์•ผ ํ•˜๋ฏ€๋กœ ์ƒ๋‹นํ•œ ๊ทœ๋ชจ์˜ GPU ์ž์›๊ณผ ๋ถ„์‚ฐ ์‹œ์Šคํ…œ ์šด์˜ ์—ญ๋Ÿ‰์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ•œ ๋ฒˆ ๊ตฌ์ถ•๋˜๋ฉด, ์—์ด์ „ํŠธ๊ฐ€ ์‚ฌ์šฉ๋˜๋Š” ๋ชจ๋“  ์ˆœ๊ฐ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ˆ„์ ๋˜์–ด ์ ์  ๋˜‘๋˜‘ํ•ด์ง€๋Š” ์ž๊ฐ€ ์ง„ํ™” ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  • ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning): ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ณด์ƒ์„ ํ†ตํ•ด ์ตœ์ ์˜ ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•œ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.
  • PPO(Proximal Policy Optimization): ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•  ๋•Œ ๋„ˆ๋ฌด ํฐ ๋ณ€ํ™”๋ฅผ ๋ง‰์•„ ํ•™์Šต์„ ์•ˆ์ •์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๋Œ€ํ‘œ์ ์ธ ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.
  • ํ”„๋กœ์„ธ์Šค ๋ณด์ƒ ๋ชจ๋ธ(Process Reward Model): ์ตœ์ข… ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹Œ ๋ฌธ์ œ ํ•ด๊ฒฐ ๊ณผ์ •์˜ ์ค‘๊ฐ„ ๋‹จ๊ณ„๋ณ„๋กœ ์–ผ๋งˆ๋‚˜ ์˜ฌ๋ฐ”๋ฅธ์ง€ ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ๋‹ค์Œ ์ƒํƒœ(Next-State): ์—์ด์ „ํŠธ๊ฐ€ ํŠน์ • ํ–‰๋™์„ ์ทจํ•œ ํ›„ ํ™˜๊ฒฝ์ด ๋ณ€ํ™”ํ•˜์—ฌ ๋‚˜ํƒ€๋‚˜๋Š” ์ƒˆ๋กœ์šด ์ƒํƒœ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  • ๋น„๋™๊ธฐ ํŒŒ์ดํ”„๋ผ์ธ(Asynchronous Pipeline): ํ•œ ์ž‘์—…์ด ๋๋‚˜๊ธฐ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š๊ณ , ์—ฌ๋Ÿฌ ์ž‘์—…์ด ๋…๋ฆฝ์ ์œผ๋กœ ๋™์‹œ์— ์‹คํ–‰๋˜๋Š” ์‹œ์Šคํ…œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.
  • ์—์ด์ „ํŠธ(Agent): ์‚ฌ์šฉ์ž์˜ ์˜๋„๋ฅผ ํŒŒ์•…ํ•˜๊ณ  ์Šค์Šค๋กœ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋ ค๋Š” ์ž์œจ์ ์ธ AI ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
  • ์ฆ๋ฅ˜(Distillation): ํฌ๊ณ  ๋ณต์žกํ•œ ๋ชจ๋ธ(์„ ์ƒ๋‹˜)์˜ ์ง€์‹์„ ์ž‘๊ณ  ๊ฐ€๋ฒผ์šด ๋ชจ๋ธ(ํ•™์ƒ)์—๊ฒŒ ์˜ฎ๊ฒจ ๋‹ด๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Geometry-Guided Reinforcement Learnโ€ฆDD-041
๐ŸฅˆPenguin-VL: Exploring the Efficiencโ€ฆDD-042
๐Ÿฅ‰OpenClaw-RL: Train Any Agent Simplyโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
4.Lost in Stories: Consistency Bugs iโ€ฆDD-044
5.Holi-Spatial: Evolving Video Streamโ€ฆDD-045

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-15 | ๐Ÿค– GLM-4.7 Deep Dive