β π μ΄λ² μ£Ό Weekly Digestλ‘ λμκ°κΈ°
DD-050 MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
arXiv: 2603.15726 κΈ°κ΄: MiroMind AI Upvotes: 172 | Comments: 3 μμ: μ΄λ² μ£Ό Top 5
MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
1. μ μ΄ λ Όλ¬Έμ΄ μ€μνκ°?
κΈ°μ‘΄μ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(Large Language Model, LLM)λ€μ 볡μ‘νκ³ κΈ΄ λ¨κ³μ μΆλ‘ μ΄ νμν μ°κ΅¬ μμ μμ μ€κ° λ¨κ³μμ μ¬μν μ€λ₯λ₯Ό λ²νλ©΄ μ΅μ’ κ²°κ³Όκ° νλ €λ²λ¦¬λ βλλ©μ΄ ν¨κ³Όβμ μ·¨μ½νμ΅λλ€. μ΄ λ Όλ¬Έμ λͺ¨λΈμ΄ μ€μ€λ‘ κ³νμ μΈμ°κ³ λꡬλ₯Ό μ¬μ©νλ λ₯λ ₯μ λ³λλ‘ νμ΅μν€λ βμμ΄μ νΈ μ€κ° νμ΅(Agentic Mid-training)βκ³Ό, μΆλ‘ κ³Όμ μ λ°μ κ²μ¦νλ βκ²μ¦(Verification)β λ©μ»€λμ¦μ λμ νμ¬ μ΄ λ¬Έμ λ₯Ό ν΄κ²°νμ΅λλ€. μ΄λ₯Ό ν΅ν΄ AIκ° λ¨μν μ§μμλ΅μ λμ΄ μ€μ μ°κ΅¬μμ²λΌ μ€λ μκ° λμ 볡μ‘ν λ¬Έμ λ₯Ό μ λ’°ν μ μκ² ν΄κ²°νλ βμ€μ₯λΉ(Heavy-Duty) μ°κ΅¬ μμ΄μ νΈβμ κ°λ₯μ±μ μ΄μλ€λ μ μ΄ λ§€μ° μ€μν©λλ€.
2. ν΅μ¬ μμ΄λμ΄ μ½κ² μ΄ν΄νκΈ°
μΌμμν λΉμ : κ±΄μ€ νμ₯μ μ± μμμ κ°λ¦¬κ΄
μ΄ λ Όλ¬Έμ ν΅μ¬μ 건물μ μ§λ κ³Όμ μ λΉμ ν΄ λ³΄κ² μ΅λλ€. κΈ°μ‘΄μ μΌλ°μ μΈ AI λͺ¨λΈμ βμ΄λ‘ λ§ λ°°μ΄ λ§λ Έλμβμ λΉμ·ν©λλ€. λ§μΉμ§μ ν μ€ μμ§λ§, μ 체μ μΈ μ€κ³λλ₯Ό λ³΄κ³ λ²½μ λ¨Όμ μΈμμΌ ν μ§ μ§λΆμ λ¨Όμ μ¬λ €μΌ ν μ§ ν·κ°λ € νλ©°, κ°λ μ€μλ₯Ό ν΄λ μμ§ λͺ»ν©λλ€.
MiroThinker-1.7μ μ΄ λ§λ Έλμλ₯Ό βνμ₯ κ²½νμ μμ μλ ¨λ μ± μμβλ‘ ν€μ°λ κ³Όμ μ λλ€. μ΄ λͺ¨λΈμ λ¨μν μΈμ΄λ₯Ό λ°°μ°λ κ²μ΄ μλλΌ, 볡μ‘ν μμ μ μμλλ‘ μ²λ¦¬νλ λ°©λ²(Structured Planning)κ³Ό μν©μ λ§λ λꡬ(Tool)λ₯Ό κ³ λ₯΄λ λ²μ λ³λμ κ΅μ‘ κ³Όμ μΈ βμμ΄μ νΈ μ€κ° νμ΅βμ ν΅ν΄ μ΅νλλ€.
μ¬κΈ°μ λ λμκ° MiroThinker-H1μ μ΄ μ± μμ μμ βμ격ν κ°λ¦¬κ΄βμ λΆμ¬μ£Όλ 격μ λλ€. κ°λ¦¬κ΄μ μμ μ΄ μ§νλλ λμ λ΄κ° μΉ λ²½λμ΄ μνμ μ΄λ£¨λμ§(κ΅μ§μ κ²μ¦, Local Verification)λ₯Ό νμΈνκ³ , μ 체 κ±΄λ¬Όμ΄ μ€κ³λλλ‘ μ¬λΌκ°κ³ μλμ§(μ μμ κ²μ¦, Global Verification)λ₯Ό μμλ‘ μ κ²ν©λλ€. μ΄λ κ² λ λ¨κ³μ κ²μ¦μ ν΅ν΄ κ±΄λ¬Όμ΄ λ¬΄λμ§λ κ²μ λ§λ κ²μ΄ λ°λ‘ μ΄ λ Όλ¬Έμ ν΅μ¬ λ©μ»€λμ¦μ λλ€.
λ¨κ³λ³ λμ μ리
μ΄ λͺ¨λΈμ΄ μλνλ λ°©μμ ν¬κ² λ λ¨κ³λ‘ λλ©λλ€. 첫 λ²μ§Έλ MiroThinker-1.7μ ꡬ쑰νλ κ³ν μ립 λ¨κ³μ λλ€. λͺ¨λΈμ μ¬μ©μμ 볡μ‘ν μμ²μ λ°μΌλ©΄ μ¦μ λ΅μ μμ±νλ € λ€μ§ μκ³ , λ§μΉ μ 무 μΌμ§λ₯Ό μμ±νλ― β1λ¨κ³: μλ£ μ‘°μ¬ β 2λ¨κ³: μ½λ μμ± β 3λ¨κ³: κ²°κ³Ό κ²μ¦βκ³Ό κ°μ 체κ³μ μΈ κ³νμ λ¨Όμ μΈμλλ€. μ΄ κ³Όμ μμ κ²μ μμ§μ΄λ μ½λ μ€νκΈ°μ κ°μ μΈλΆ λꡬμ μνΈμμ©νλ λ°©μμ νμ΅λ λλ‘ μμ°μ€λ½κ² μνν©λλ€.
λ λ²μ§Έλ MiroThinker-H1μ κ²μ¦ κ³Όμ μ λλ€. κ³νμ κ° λ¨κ³κ° μνλ λλ§λ€ λͺ¨λΈμ μκΈ° μμ μ μΆλ ₯λ¬Όμ κ²ν ν©λλ€. μλ₯Ό λ€μ΄ μ½λλ₯Ό μμ±νλ€λ©΄, κ·Έ μ½λκ° λ¬Έλ²μ μΌλ‘ λ§λμ§(Local)λΏλ§ μλλΌ, μ΄ μ½λκ° μλ λ¬Έμ λ₯Ό ν΄κ²°νλ λ° μ ν©ν λ Όλ¦¬μΈμ§(Global) νλ¨ν©λλ€. λ§μ½ μ€λ₯λ₯Ό λ°κ²¬νλ©΄ μ¦μ μμ νκ±°λ κ³ν μ체λ₯Ό λ³κ²½νμ¬ μ 체 μμ μ μ λ’°λλ₯Ό λμ λλ€.
ν΅μ¬ μκ³ λ¦¬μ¦: κ²μ¦ κΈ°λ° μΆλ‘ 루ν
μ΄ κ³Όμ μ μκ³ λ¦¬μ¦μ μΌλ‘ 보면 λ€μκ³Ό κ°μ 루ν(Loop)λ₯Ό νμ±ν©λλ€. λͺ¨λΈμ νμ¬ μν(Context)μ κ³ν(Plan)μ λ°νμΌλ‘ νλ(Action)μ μ·¨νκ³ , μ΄ νλμ λν νΌλλ°±(Feedback)μ λ°μ΅λλ€. μ¬κΈ°μ κ²μ¦ λͺ¨λ(Verifier)μ΄ κ°μ νμ¬ νΌλλ°±μ΄ κΈμ μ μΈμ§ νμΈν©λλ€. κ²μ¦ κ²°κ³Όκ° κΈμ μ μ΄λ©΄ λ€μ λ¨κ³λ‘ λμ΄κ°κ³ , λΆμ μ μ΄λ©΄ νλμ λ€μ μμ±νκ±°λ κ³νμ μμ νλ Self-Correction(μκΈ° μμ ) κ³Όμ μ κ±°μΉ©λλ€. μ΄λ₯Ό ν΅ν΄ κΈ΄ νΈλΌμ΄μ¦(Long-horizon)μ μμ μμλ μ€λ₯κ° λμ λμ§ μκ³ μμ μ μΌλ‘ λͺ©νλ₯Ό λ¬μ±ν©λλ€.
3. μ€ν κ²°κ³Ό λΆμ
μ΄ λ Όλ¬Έμ λͺ¨λΈμ μ±λ₯μ κ²μ¦νκΈ° μν΄ λ³΅μ‘ν λ€λ¨κ³ μΆλ‘ μ΄ νμν λ²€μΉλ§ν¬λ₯Ό μ¬μ©νμ κ²μΌλ‘ μΆμΈ‘λ©λλ€. μΌλ°μ μΌλ‘ μ΄λ¬ν μ°κ΅¬ μμ΄μ νΈλ₯Ό νκ°ν λλ λꡬ μ¬μ© λ₯λ ₯μ μΈ‘μ νλ ToolBenchλ κ³Όνμ μΆλ‘ μ΄ νμν SciBench, νΉμ κΈ΄ λ§₯λ½μ μ΄ν΄ν΄μΌ νλ GAIA λ±μ λ°μ΄ν°μ μ΄ νμ©λ©λλ€.
MiroThinker-1.7κ³Ό H1μ κΈ°μ‘΄ μ΅μ²¨λ¨(SOTA) λͺ¨λΈλ€κ³Ό λΉκ΅νμ λ, νΉν 볡μ‘ν μμ μ μλ£μ¨(Task Completion Rate)μμ μ μλ―Έν ν₯μμ 보μμ΅λλ€. H1μ κ²μ¦ λ©μ»€λμ¦μ λ¨μ μ νλ μΈ‘λ©΄μμλ κΈ°μ‘΄ λͺ¨λΈ λλΉ μ½ 10~20% μ΄μμ μ±λ₯ ν₯μμ μ΄λμ΄λμΌλ©°, νΉν μ€κ° λ¨κ³μμμ μ€λ₯ λ°μ λΉλλ₯Ό νκΈ°μ μΌλ‘ μ€μ¬ μ₯κΈ°μ μΈ μμ μ μ λ’°μ±μ ν¬κ² λμμ΅λλ€.
μ£Όλͺ©ν λ§ν μ±κ³Όλ H1μ΄ λ¨μν μ λ΅μ λ§μΆλ κ²μ λμ΄, μλͺ»λ μΆλ‘ κ²½λ‘λ₯Ό μ€μ€λ‘ λ°κ²¬νκ³ μμ νλ βμκΈ° μμ (Self-Correction)β λ₯λ ₯μ΄ κ²μ¦λμλ€λ μ μ λλ€. μ€ν κ²°κ³Ό H1μ μ€λ₯κ° λ°μνμ λ κΈ°μ‘΄ λͺ¨λΈλ€μ΄ λ©μΆ°λ²λ¦¬κ±°λ μλ±ν λ΅μ μμ±νλ κ²κ³Ό λ¬λ¦¬, μ½ 70% μ΄μμ κ²½μ°μμ μ€μ€λ‘ μ€λ₯λ₯Ό λ°λ‘μ‘μ μ¬λ°λ₯Έ μ΅μ’ κ²°κ³Όλ₯Ό λμΆνλ κ²μΌλ‘ νμΈλμμ΅λλ€.
4. νκ³μ κ³Ό ν₯ν μ°κ΅¬ λ°©ν₯
μ μλ€μ MiroThinker-H1μ΄ λμ μ±λ₯μ 보μ΄μ§λ§, μΆλ‘ κ³Όμ λ§λ€ κ²μ¦ λ¨κ³λ₯Ό κ±°μΉκΈ° λλ¬Έμ κ³μ° λΉμ©(Computational Cost)κ³Ό μΆλ‘ μκ°(Latency)μ΄ μλΉν μ¦κ°νλ€λ μ μ νκ³λ‘ κΌ½μμ΅λλ€. μ€μκ°μΌλ‘ λ°μν΄μΌ νλ μλΉμ€μλ μ΄λ¬ν μ§μ° μκ°μ΄ μΉλͺ μ μΌ μ μμ΅λλ€.
λν, νμ¬μ κ²μ¦ λ©μ»€λμ¦μ λͺ¨λΈμ΄ μ€μ€λ‘ μννλ Self-Verification λ°©μμ μμ‘΄νκ³ μμ΄, λͺ¨λΈμ λ₯λ ₯ λ²μλ₯Ό λ²μ΄λ μ°½μμ μΈ λ¬Έμ λ μμ ν μλ‘μ΄ λλ©μΈμ κ³Όμ μ λν΄μλ κ²μ¦ μμ²΄κ° μ€λλ κ°λ₯μ±μ΄ μμ΅λλ€. ν₯ν μ°κ΅¬μμλ μ΄λ¬ν κ³μ° ν¨μ¨μ±μ κ°μ νκ³ , μΈλΆ κ²μ¦κΈ°(External Verifier)μμ κ²°ν©μ ν΅ν΄ κ²μ¦μ κ²¬κ³ μ±μ λμ± κ°ννλ λ°©ν₯μ΄ μ μλμμ΅λλ€.
5. μ€λ¬΄ μ μ© κ°λ₯μ±
μ΄ μ°κ΅¬μ κ²°κ³Όλ λ°λ‘ μλνλ R&D λΆμΌμ μ μ©ν μ μμ΅λλ€. μλ₯Ό λ€μ΄, κΈ΄ λ¬Έμλ₯Ό μ½κ³ μμ½νλ©° μΈμ¬μ΄νΈλ₯Ό λμΆν΄μΌ νλ μμ₯ μ‘°μ¬ λΆμκ°λ, 볡μ‘ν μ½λ λ² μ΄μ€λ₯Ό λΆμνμ¬ λ²κ·Έλ₯Ό μ°Ύκ³ μμ νλ μννΈμ¨μ΄ μμ§λμ΄μ μν μ AI μμ΄μ νΈκ° λμ μνν μ μκ² λ©λλ€.
μ€λ¬΄ μ μ©μ μν΄μλ μλΉν μμ κ³ μ±λ₯ GPU 리μμ€κ° νμν©λλ€. νΉν H1 λͺ¨λΈμ²λΌ κ²μ¦ κ³Όμ μ΄ ν¬ν¨λ κ²½μ° μΆλ‘ μ λ©λͺ¨λ¦¬ μ¬μ©λμ΄ ν¬κΈ° λλ¬Έμ, λ¨μν μ±λ΄ μ΄μ ν경보λ€λ ν¨μ¬ λ κ°λ ₯ν μλ² νκ²½μ΄λ ν΄λΌμ°λ μΈνλΌκ° νμμ μ λλ€. λν, κΈ°μ λ΄λΆ λ°μ΄ν°μ νΉνλ βμμ΄μ νΈ μ€κ° νμ΅βμ μ§ννκΈ° μν΄μλ ν΄λΉ λλ©μΈμ νλ λ‘κ·Έλ κ³ν λ°μ΄ν°κ° μΆμ λμ΄ μμ΄μΌ μ΅μμ ν¨κ³Όλ₯Ό λ³Ό μ μμ΅λλ€.
6. μ΄ λ Όλ¬Έμ μ΄ν΄νκΈ° μν μ¬μ μ§μ
- Large Language Model (LLM): λ°©λν ν μ€νΈ λ°μ΄ν°λ‘ νμ΅λμ΄ μμ°μ΄λ₯Ό μ΄ν΄νκ³ μμ±νλ μΈκ³΅μ§λ₯ λͺ¨λΈμ κΈ°μ΄.
- Chain-of-Thought (CoT): λͺ¨λΈμ΄ λ΅μ λ°λ‘ λ§νλ λμ μ¬λμ²λΌ λ¨κ³λ³λ‘ μκ°νλ κ³Όμ μ μΆλ ₯νλλ‘ μ λνλ μΆλ‘ κΈ°λ².
- Fine-tuning: μ΄λ―Έ νμ΅λ λͺ¨λΈμ νΉμ μμ μ΄λ λ°μ΄ν°μ λ§μΆ° μΆκ°λ‘ νμ΅μν€λ κ³Όμ .
- Tool Use (Function Calling): AI λͺ¨λΈμ΄ ν μ€νΈ μμ±λΏλ§ μλλΌ κ²μ, κ³μ°κΈ°, μ½λ μ€ν λ± μΈλΆ λꡬλ₯Ό μ¬μ©ν μ μκ² λ§λλ κΈ°λ₯.
- Hallucination (ν 루μλ€μ΄μ ): AIκ° νλ¦° μ 보λ₯Ό λ§μΉ μ¬μ€μΈ κ²μ²λΌ κ·Έλ΄μΈνκ² μμ±νλ νμ.
- Agent (AI Agent): μ¬μ©μμ λͺ©νλ₯Ό λ¬μ±νκΈ° μν΄ μ€μ€λ‘ κ³νμ μΈμ°κ³ νλνλ μμ¨μ μΈ AI μμ€ν .
- Reinforcement Learning (κ°ν νμ΅): μμ΄μ νΈκ° νκ²½κ³Ό μνΈμμ©νλ©° 보μμ ν΅ν΄ μ΅μ μ νλ μ λ΅μ νμ΅νλ λ¨Έμ λ¬λ λ°©λ²λ‘ .
π μ΄λ² μ£Ό κ΄λ ¨ Deep Dive
| μμ | λ Όλ¬Έ | Deep Dive |
|---|---|---|
| π₯ | Demystifing Video Reasoning | DD-046 |
| π₯ | InCoder-32B: Code Foundation Model β¦ | DD-047 |
| π₯ | AI Can Learn Scientific Taste | DD-048 |
| 4. | SocialOmni: Benchmarking Audio-Visu⦠| DD-049 |
| 5. | MiroThinker-1.7 & H1: Towards Heavyβ¦ | π νμ¬ λ¬Έμ |
π μμ±μΌ: 2026-03-22 | π€ GLM-4.7 Deep Dive