โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-048 AI Can Learn Scientific Taste
arXiv: 2603.14473 ๊ธฐ๊ด: OpenMOSS Upvotes: 266 | Comments: 8 ์์: ์ด๋ฒ ์ฃผ Top 3
1. ์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
๊ธฐ์กด์ AI ๊ณผํ์ ์ฐ๊ตฌ๋ ๋ ผ๋ฌธ ๊ฒ์์ด๋ ์คํ ์๋ํ์ ๊ฐ์ โ์คํ ๋ฅ๋ ฅโ์ ํฅ์์ํค๋ ๋ฐ ์ง์คํ์ง๋ง, ์ด๋ค ์ฐ๊ตฌ ์ฃผ์ ๊ฐ ๊ฐ์ฅ ๊ฐ์น ์๋์ง ํ๋จํ๋ โ๊ณผํ์ ํต์ฐฐ(Scientific Taste)โ์ ๊ฐ์ถ๋ ๋ฐ๋ ์คํจํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ธ์ฉ ํ์๋ผ๋ ๋๊ท๋ชจ ์ปค๋ฎค๋ํฐ ํผ๋๋ฐฑ์ ํตํด AI์๊ฒ ์ฐ๊ตฌ ์์ด๋์ด์ ๊ฐ์น๋ฅผ ํ๋จํ๊ณ ์ ์ํ๋ ๋ฅ๋ ฅ์ ํ์ต์ํจ ์ต์ด์ ์ฌ๋ก์ ๋๋ค. ๋จ์ํ ๋๊ตฌ๋ฅผ ๋์ด, ๋ฐ์ด๋ ๊ณผํ์์ฒ๋ผ ๋ฏธ๋์ ์ฑ๊ณผ๋ฅผ ์์ธกํ๊ณ ์ ๋งํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ ์ ์๋ AI์ ๊ฐ๋ฅ์ฑ์ ์ด์๋ค๋ ์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
2. ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ์ํ ํ๋ก ๊ฐ์ ๊ฐ๋ณธ๊ฐ
์ด ๋ ผ๋ฌธ์ ํต์ฌ์ ์ดํดํ๋ ค๋ฉด ์ํ ์ฐ์ ์ ์๊ฐํ๋ฉด ์ฝ์ต๋๋ค. ๊ธฐ์กด์ AI๋ ์นด๋ฉ๋ผ๋ฅผ ์ฐ๊ฑฐ๋ ์กฐ๋ช ์ ์กฐ์ ํ๋ โ๊ธฐ์ ์ ์ธ ์คํํโ์๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ AI๋ ํฅํํ๋ ์ํ์ ๊ฐ๋ณธ์ ์ฐ๊ณ ์ ๋ณํ๋ โ๋ฅ๋ ฅ ์๋ ์ ์์โ๊ฐ ๋๋ ค๊ณ ํฉ๋๋ค. โ๊ณผํ์ ์ทจํฅ(Scientific Taste)โ์ ๋ฐ๋ก โ์ด ๊ฐ๋ณธ์ด ๋ฐ์ค์คํผ์ค์์ ์ฑ๊ณตํ ๊ฒ์ธ๊ฐ?โ๋ฅผ ํ๋จํ๋ ์๋ชฉ์ ๋๋ค.
์ฌ๊ธฐ์ ์ํ์ ํฅํ ์ฑ์ ์ ๋ฐ๋ก โ์ธ์ฉ ํ์(Citations)โ์ ํด๋นํฉ๋๋ค. ๋ง์ ์ฌ๋๋ค์ด ๋ณด๊ณ ์ถ์ด ํ๋ ์ํ๊ฐ ํฅํํ๋ฏ, ๋ง์ ์ฐ๊ตฌ์๋ค์ด ์ธ์ฉํ๋ ๋ ผ๋ฌธ์ด ์ํฉํธ๊ฐ ํฐ ์ฐ๊ตฌ์ ๋๋ค. ์ด ๋ ผ๋ฌธ์ AI์๊ฒ ์๋ง์ ์ํ ์๋์์ค(๋ ผ๋ฌธ ์ด๋ก)์ ๊ทธ ํฅํ ์ค์ (์ธ์ฉ ์)์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ค ์์๊ฐ ์ฑ๊ณต์ ์ด๋์ด๋ด๋์ง ํ์ต์ํต๋๋ค.
๋จ๊ณ๋ณ ๋์ ๊ณผ์ (RLCF)
์ด ๋ ผ๋ฌธ์ด ์ ์ํ๋ Reinforcement Learning from Community Feedback (RLCF)๋ ์ธ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
์ฒซ์งธ, โ์ปค๋ฎค๋ํฐ ํผ๋๋ฐฑ ๊ตฌ์ฑโ ๋จ๊ณ์ ๋๋ค. ์ฐ๊ตฌ ๋ถ์ผ์ ๋ฐํ ์์ ์ด ๊ฐ์ ๋ ๋ ผ๋ฌธ์ ์ง์ง์ต๋๋ค. ๋ ์ค ์ธ์ฉ ํ์๊ฐ ํ์ ํ ๋ง์ ๋ ผ๋ฌธ์ โ์น์โ, ์ ์ ๋ ผ๋ฌธ์ โํจ์โ๋ก ๋ถ๋ฅํ์ฌ 70๋ง ์์ ๋ฐ์ดํฐ์ (SciJudgeBench)์ ๋ง๋ญ๋๋ค. ์ด๋ ๋ง์น ๊ฐ์ ํด์ ๊ฐ๋ดํ ์ก์ ์ํ ๋ ํธ์ ๋๊ณ ํฅํ ์ฑ์ ์ ๋น๊ตํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค.
๋์งธ, โ์ ํธ ๋ชจ๋ธ๋ง(Scientific Judge)โ ๋จ๊ณ์ ๋๋ค. AI ํ์ฌ(Scientific Judge)๋ฅผ ํ๋ จ์์ผ ๋ ๋ ผ๋ฌธ์ ์ด๋ก์ ๋ณด๊ณ ์ด๋ ์ชฝ์ด ๋ ์ธ์ฉ์ด ๋ง์์ง ์์ธกํ๊ฒ ํฉ๋๋ค. ์ด ๊ณผ์ ์์ AI๋ ๋จ์ํ ํ ์คํธ๋ฅผ ์ธ์ฐ๋ ๊ฒ์ด ์๋๋ผ, ์ฐ๊ตฌ ์์ด๋์ด์ ์ ์ฌ์ ์ํฉํธ๋ฅผ ํ๋จํ๋ โ๋ฏธ๊ฐโ์ ๊ฐ๋ฐํ๊ฒ ๋ฉ๋๋ค.
์ ์งธ, โ์ ํธ ์ ๋ ฌ(Scientific Thinker)โ ๋จ๊ณ์ ๋๋ค. ์ด์ ํ์ต๋ ํ์ฌ(Scientific Judge)๋ฅผ ์ฌ์ฌ์์์ผ๋ก ์ผ์ ์์ด๋์ด ์์ฑ ๋ชจ๋ธ(Scientific Thinker)์ ํ๋ จ์ํต๋๋ค. ์์ฑ ๋ชจ๋ธ์ด ์ฐ๊ตฌ ์์ด๋์ด๋ฅผ ๋ด๋์ผ๋ฉด, ํ์ฌ๊ฐ ์ ์๋ฅผ ๋งค๊น๋๋ค. ์ ์๊ฐ ์ข์ผ๋ฉด ๋ณด์์ ์ฃผ๊ณ , ๋์๋ฉด ํ๋ํฐ๋ฅผ ์ฃผ๋ฉด์ ์ ์ฐจ ํ์ฌ๊ฐ ๋์ ์ ์๋ฅผ ์ค ๋งํ, ์ฆ ์ํฉํธ๊ฐ ํด ๊ฒ์ผ๋ก ์์๋๋ ํ๋ฅญํ ์ฐ๊ตฌ ์์ด๋์ด๋ฅผ ์์ฑํ๋๋ก ์ ๋ํฉ๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
์ด ๋ ผ๋ฌธ์ ํ์ต์ Group Relative Policy Optimization (GRPO) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํฉ๋๋ค. ๊ธฐ์กด ๊ฐํ ํ์ต์ด ๋ณ๋์ ๊ฐ์น ํจ์(Value Function)๋ฅผ ์ถ์ ํด์ผ ํ๋ ๋ณต์กํจ์ ์ค์ด๊ณ , ์ฌ๋ฌ ๊ฐ์ ์ถ๋ ฅ์ ๋์์ ์์ฑํ์ฌ ๊ทธ ์์๋ฅผ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก ํ์ต ํจ์จ์ ๋์์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ ๋ถ์
๋ฒค์น๋งํฌ ๋ฐ ์ฑ๋ฅ ๋น๊ต
์ฐ๊ตฌ์ง์ ์์ฒด์ ์ผ๋ก ๊ตฌ์ถํ SciJudgeBench์์ ์คํ์ ์งํํ์ผ๋ฉฐ, ๊ธฐ์กด ์ต์ ๋ชจ๋ธ์ธ GPT-5.2-Thinking, DeepSeek, Gemini ๋ฑ๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ์ต๋๋ค. ํนํ ์คํ ์์ค ๋ชจ๋ธ์ธ Qwen ๊ณ์ด์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต์ํจ SciJudge ๋ชจ๋ธ๋ค์ด ๋๋ถ์ ์์น์ธ๋ฅผ ๋ณด์์ต๋๋ค.
๊ตฌ์ฒด์ ์์น
๊ฐ์ฅ ์ธ์์ ์ธ ์ ์ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ์๊ด์์ด ํ์ต ํจ๊ณผ๊ฐ ์๋์ ์ด๋ผ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ฐ์ฅ ์์ ๋ชจ๋ธ์ธ Qwen2.5-1.5B-Instruct์ ์ ํ๋๋ ๊ฒจ์ฐ 7.0%์ ๋ถ๊ณผํ์ผ๋, RLCF๋ก ํ์ตํ SciJudge-Qwen2.5-1.5B๋ ๋ฌด๋ ค 72.1%๋ก ์ ํ๋๊ฐ 65.1%p๋ ๊ธ์์นํ์ต๋๋ค.
๋ ์ค์ํ ๊ฒ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋๋ค. 300์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง SciJudge-Qwen3-30B ๋ชจ๋ธ์ ํ๊ท ์ ํ๋ 80.6%๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ GPT-5.2-Thinking(72.7%)์ด๋ Gemini-3.0-Pro(75.7%)๊ณผ ๊ฐ์ ๊ฑฐ๋ ์์ฉ ๋ชจ๋ธ๋ค์ ๋ชจ๋ ๋ฅ๊ฐํ๋ ์ฑ๊ณผ์ ๋๋ค. ์ด๋ ๊ณผํ์ ํ๋จ๋ ฅ์ด ๋ชจ๋ธ์ ํฌ๊ธฐ๋งํผ์ด๋ ํ์ต ๋ฐ์ดํฐ์ ๋ฐฉ๋ฒ๋ก ์ ์์กดํจ์ ์์ฌํฉ๋๋ค.
์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ
์ด AI๋ ์๊ฐ๊ณผ ๋ถ์ผ๋ฅผ ๋์ด์๋ ํ๋จ๋ ฅ์ ์ ์งํ์ต๋๋ค. ๊ณผ๊ฑฐ์ ๋ฐ์ดํฐ๋ก ํ์ตํ์์๋ ๋ถ๊ตฌํ๊ณ , ๋ฏธ๋์ ๋ ผ๋ฌธ์ด๋ ๋ค๋ฅธ ์ฐ๊ตฌ ๋ถ์ผ์์๋ ๋์ ์ธ์ฉ์ ๋ฐ์ ๋ ผ๋ฌธ์ ์์ธกํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ์ด๋ AI๊ฐ ๋จ์ํ ๊ณผ๊ฑฐ์ ์ ํ์ ์ธ์ฐ๋ ๊ฒ์ด ์๋๋ผ, ์ฐ๊ตฌ์ ๋ณธ์ง์ ์ธ ๊ฐ์น๋ฅผ ํ๋จํ๋ โํต์ฐฐ๋ ฅโ์ ํ์ตํ์์ ์๋ฏธํฉ๋๋ค.
4. ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๊ฐ ์ธ๊ธํ ํ๊ณ
์ด ๋ ผ๋ฌธ์ ๊ฐ์ฅ ํฐ ํ๊ณ๋ ์ธ์ฉ ํ์(Citation)๋ฅผ ์๋ฒฝํ ์งํ๋ก ์ผ๊ธฐ ์ด๋ ต๋ค๋ ์ ์ ๋๋ค. ์ธ์ฉ ์๋ ์ฐ๊ตฌ์ ์ง๋ฟ๋ง ์๋๋ผ ์ ์์ ๋ช ์ฑ์ด๋ ์ฐ๊ตฌ ๋ถ์ผ์ ์ธ๊ธฐ๋, ์ฌ์ง์ด ์ ์น์ ์ธ ์์ธ์๋ ์ํฅ์ ๋ฐ์ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ AI๊ฐ ํ์ตํ๋ โ์ทจํฅโ์ด ์ง์ ํ ๊ณผํ์ ๊ฐ์น๊ฐ ์๋, ๋จ์ํ ์ธ์ฉ์ ์ ๋ฐ๋ ๋ฒ์ ๋ฐฐ์ฐ๋ โ์ธ์ฉ ๊ฒ์ด๋ฐโ์ผ๋ก ๋น ์ง ์ํ์ด ์์ต๋๋ค.
๊ฐ์ ๊ฐ๋ฅํ ์
ํฅํ ์ฐ๊ตฌ์์๋ ์ธ์ฉ ์ ์ธ์๋ ๋๋ฃ ํ๊ฐ(Peer Review) ์ ์, ์ค์ ์ฐ์ ๊ณ ๊ธฐ์ฌ๋, ๋ค๋ฅธ ๋งค์ฒด์์์ ์ธ๊ธ ํ์ ๋ฑ ๋ ๋ค๊ฐ์ ์ธ ํผ๋๋ฐฑ ์ ํธ๋ฅผ ํตํฉํ ํ์๊ฐ ์์ต๋๋ค. ๋ํ, ํ์ฌ๋ ์ฃผ๋ก ํ ์คํธ(์ด๋ก)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋จํ์ง๋ง, ์คํ ๋ฐ์ดํฐ๋ ์ฝ๋๊น์ง ํฌํจํ ๋ฉํฐ๋ชจ๋ฌ(Multimodal) ๋ถ์์ผ๋ก ํ์ฅ๋๋ค๋ฉด ๋์ฑ ์ ๊ตํ ๊ณผํ์ ํต์ฐฐ์ ์ป์ ์ ์์ ๊ฒ์ ๋๋ค.
5. ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
๋ฐ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ถ์ผ
์ด ๊ธฐ์ ์ ์ฐ๊ตฌ์๋ ๋ํ์ ์ฐ๊ตฌ ์ง์ ๋๊ตฌ๋ก ์ฆ์ ํ์ฉํ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์๊ฐ ์๋ก์ด ์์ด๋์ด๋ฅผ ๋ ์ฌ๋ ธ์ ๋, ์ด ๋ชจ๋ธ์ด ํด๋น ์์ด๋์ด์ ์ ์ฌ์ ์ํฉํธ๋ฅผ ๋ฏธ๋ฆฌ ์์ธกํ์ฌ ๋ฐฉํฅ์ฑ์ ์กฐ์ ํ๋ โAI ๋ฆฌ์์น ์ด๋๋ฐ์ด์ โ๋ก ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ๋ํ, ์๋ง์ ์ ์์ ์ค ์ ๋งํ ํ๋ณด๋ฅผ ์ ๋ณํ๋ ํ๋ฉ ์ฌ์ฌ ๋ณด์กฐ ๋๊ตฌ๋ก๋ ํ์ฉ ๊ฐ์น๊ฐ ๋์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค
์ด ์์คํ ์ ์ง์ ๊ตฌ์ถํ๋ ค๋ฉด ๋๊ท๋ชจ์ ๋ ผ๋ฌธ ๋ฐ์ดํฐ(์ฝ 200๋ง ๊ฐ ์ด์์ arXiv ๋ ผ๋ฌธ)์ ์ด๋ฅผ ์ ์ฒ๋ฆฌํ ํ์ดํ๋ผ์ธ์ด ํ์ํฉ๋๋ค. ๋ํ, 30์ต~300์ต ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ LLM(Large Language Model)์ ๋ฏธ์ธ ์กฐ์ (Fine-tuning)ํ๊ณ ๊ฐํ ํ์ต์ ๋๋ ค์ผ ํ๋ฏ๋ก, ๊ณ ์ฑ๋ฅ GPU ํด๋ฌ์คํฐ(์: A100 ๋๋ H100 ์ฌ๋ฌ ๋)์ ์๋นํ ํ์ต ์๊ฐ์ด ์์๋ฉ๋๋ค. ๋ค๋ง, ํ์ต๋ ๋ชจ๋ธ์ ์ถ๋ก ๋ง ํ๋ ๋จ๊ณ๋ผ๋ฉด ์๋์ ์ผ๋ก ์ ์ ๋ฆฌ์์ค๋ก๋ ์๋น์ค ์ด์์ด ๊ฐ๋ฅํฉ๋๋ค.
6. ์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Large Language Models (LLM): ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋์ด ์์ฐ์ด๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ๊ฑฐ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค.
- Reinforcement Learning (๊ฐํ ํ์ต): ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ๋ณด์์ ์ต๋ํํ๋ ํ๋์ ํ์ตํ๋ ๊ธฐ๊ณ ํ์ต์ ํ ์ข ๋ฅ์ ๋๋ค.
- Preference Modeling (์ ํธ ๋ชจ๋ธ๋ง): A๋ณด๋ค B๊ฐ ๋ซ๋ค๋ ์์ ์ธ๊ฐ์ ์ ํธ๋๋ฅผ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ๋ชจ๋ธ์ด ๊ฐ์น ํ๋จ์ ํ๊ฒ ๋ง๋๋ ๊ธฐ๋ฒ์ ๋๋ค.
- RLHF (Reinforcement Learning from Human Feedback): ์ธ๊ฐ์ ํผ๋๋ฐฑ์ ๋ณด์ ์ ํธ๋ก ์ฌ์ฉํ์ฌ LLM์ ์ธ๊ฐ์ ๊ฐ์น๊ด์ ๋ง๊ฒ ์ ๋ ฌ์ํค๋ ๊ธฐ์ ์ ๋๋ค.
- Pairwise Comparison (์๋ ๋น๊ต): ๋ ๊ฐ์ ํญ๋ชฉ์ ๋๊ณ ์ด๋ ๊ฒ์ด ๋ ๋ซ๋์ง ์์๋ฅผ ๋งค๊ธฐ๋ ๋ฐฉ์์ผ๋ก, ๋ชจ๋ธ ํ์ต ์ ์์ฃผ ์ฌ์ฉ๋ฉ๋๋ค.
- Citation Analysis (์ธ์ฉ ๋ถ์): ํ์ ๋ ผ๋ฌธ์ด ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ ์ํด ์ธ์ฉ๋๋ ํ์๋ฅผ ๋ถ์ํ์ฌ ์ฐ๊ตฌ์ ์ํฅ๋ ฅ์ ์ธก์ ํ๋ ๊ณผํ๊ณ์ธกํ์ ๋ฐฉ๋ฒ๋ก ์ ๋๋ค.
- Group Relative Policy Optimization (GRPO): ์ฌ๋ฌ ํ๋ณด ์ํ์ ๊ทธ๋ฃน์ผ๋ก ์์ฑํ์ฌ ์๋์ ์ธ ์์๋ฅผ ํตํด ์ ์ฑ ์ ์ต์ ํํ๋ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Demystifing Video Reasoning | DD-046 |
| ๐ฅ | InCoder-32B: Code Foundation Model โฆ | DD-047 |
| ๐ฅ | AI Can Learn Scientific Taste | ๐ ํ์ฌ ๋ฌธ์ |
| 4. | SocialOmni: Benchmarking Audio-Visuโฆ | DD-049 |
| 5. | MiroThinker-1.7 & H1: Towards Heavyโฆ | DD-050 |
๐ ์์ฑ์ผ: 2026-03-22 | ๐ค GLM-4.7 Deep Dive