← πŸ“š 이번 μ£Ό Weekly Digest둜 λŒμ•„κ°€κΈ°

DD-058 ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

arXiv: 2603.24414 Upvotes: 174 | Comments: 4 μˆœμœ„: 이번 μ£Ό Top 3


μ•ˆλ…•ν•˜μ„Έμš”. AI/ML μ „λ¬Έκ°€μ΄μž λ…Όλ¬Έ λ¦¬λ·°μ–΄λ‘œμ„œ, 졜근 λ°œν‘œλœ β€˜ClawKeeper’ 논문을 μ£Όλ‹ˆμ–΄ 개발자 κ΄€μ μ—μ„œ μ™„λ²½ν•˜κ²Œ 이해할 수 μžˆλ„λ‘ 심도 있게 뢄석해 λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€. 이 논문은 ν–₯ν›„ 2026λ…„μ˜ 기술 ν™˜κ²½μ„ 닀루고 μžˆμ§€λ§Œ, μ œμ‹œν•˜λŠ” κ°œλ…μ€ ν˜„μž¬μ˜ AI μ—μ΄μ „νŠΈ κ°œλ°œμ—λ„ 맀우 μ€‘μš”ν•œ μ‹œμ‚¬μ μ„ λ˜μ§‘λ‹ˆλ‹€.


1. μ™œ 이 논문이 μ€‘μš”ν•œκ°€?

기쑴의 AI λ³΄μ•ˆ μ—°κ΅¬λŠ” 주둜 μ‚¬μš©μžκ°€ μ•…μ˜μ μΈ μ§ˆλ¬Έμ„ 던질 λ•Œ λͺ¨λΈμ΄ 이λ₯Ό κ±°λΆ€ν•˜λŠ”μ§€μ— μ΄ˆμ μ„ λ§žμ·„μŠ΅λ‹ˆλ‹€. ν•˜μ§€λ§Œ 이 논문은 AIκ°€ λ‹¨μˆœν•œ 챗봇을 λ„˜μ–΄, νŒŒμΌμ„ μ‚­μ œν•˜κ±°λ‚˜ μ½”λ“œλ₯Ό μ‹€ν–‰ν•˜λŠ” β€˜μž‘λ™ μ‹œμŠ€ν…œ(Runtime)β€˜μœΌλ‘œ μ§„ν™”ν•˜λŠ” ν˜„μƒμ— μ£Όλͺ©ν•©λ‹ˆλ‹€. 이 논문은 μ—μ΄μ „νŠΈκ°€ 마치 운영체제처럼 ν–‰λ™ν•˜λŠ” ν™˜κ²½(OpenClaw)μ—μ„œ, 도ꡬ(Tool) μ‚¬μš©μ΄λ‚˜ μ™ΈλΆ€ ν”ŒλŸ¬κ·ΈμΈ(Plugin) μ„€μΉ˜ κ³Όμ •μ—μ„œ λ°œμƒν•  수 μžˆλŠ” μ‹œμŠ€ν…œ 레벨의 λ³΄μ•ˆ 취약점을 ν•΄κ²°ν•˜λŠ” 졜초의 포괄적인 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν–ˆλ‹€λŠ” μ μ—μ„œ νšκΈ°μ μž…λ‹ˆλ‹€.


2. 핡심 아이디어 μ‰½κ²Œ μ΄ν•΄ν•˜κΈ°

μΌμƒμƒν™œ λΉ„μœ : μ™„λ²½ν•œ 경비원이 μžˆλŠ” 슀마트 곡μž₯

이 λ…Όλ¬Έμ˜ 핡심인 β€˜ClawKeeper’λ₯Ό μ΄ν•΄ν•˜λ €λ©΄, 첨단 λ‘œλ΄‡ νŒ”μ΄ μž‘λ™ν•˜λŠ” β€˜μŠ€λ§ˆνŠΈ 곡μž₯’을 상상해 λ³΄μ„Έμš”.

  • OpenClaw(곡μž₯): λ‘œλ΄‡ νŒ”(AI μ—μ΄μ „νŠΈ)이 λ§μΉ˜μ™€ 톱(도ꡬ)을 자유둭게 μ‚¬μš©ν•˜λ©°, μ™ΈλΆ€μ—μ„œ μƒˆλ‘œμš΄ 기계(ν”ŒλŸ¬κ·ΈμΈ)도 κ°€μ Έλ‹€ 놓을 수 μžˆλŠ” 자유둜운 곡μž₯μž…λ‹ˆλ‹€.
  • μœ„ν—˜ μš”μ†Œ: λ‘œλ΄‡μ΄ β€œμ°½λ¬Έμ„ λΆ€μˆ˜λΌβ€λŠ” 잘λͺ»λœ λͺ…령을 λ°›κ±°λ‚˜, μ™ΈλΆ€μ—μ„œ κ°€μ Έμ˜¨ μƒˆλ‘œμš΄ 기계에 폭탄이 숨겨져 μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
  • ClawKeeper(톡합 κ²½λΉ„ μ‹œμŠ€ν…œ): 이 μ‹œμŠ€ν…œμ€ 크게 μ„Έ κ°€μ§€ 역할을 ν•©λ‹ˆλ‹€.

단계별 λ™μž‘ 원리

첫째, **Skills(μž‘μ—… ν‘œμ€€ 맀뉴얼)**μž…λ‹ˆλ‹€. λ‘œλ΄‡μ΄ 망치λ₯Ό μ§‘μ–΄ λ“€ λ•Œ, κ·Έ 망치둜 μœ λ¦¬μ°½μ„ κΉ¨λ €λŠ” μ‹œλ„κ°€ μ•„λ‹Œμ§€, λͺ»μ„ λ°•λŠ” 정상적인 μš©λ„μΈμ§€ μ¦‰μ‹œ ν™•μΈν•˜λŠ” μ ˆμ°¨μž…λ‹ˆλ‹€. 즉, μ—μ΄μ „νŠΈκ°€ 도ꡬλ₯Ό μ‚¬μš©ν•˜κΈ° 직전에 ν•΄λ‹Ή 행동이 μ•ˆμ „ν•œμ§€ 사전에 μ •μ˜λœ κ·œμΉ™(Skill 래퍼)을 톡해 κ²€μ‚¬ν•©λ‹ˆλ‹€.

λ‘˜μ§Έ, **Plugins(기계 κ²€μ—­μ†Œ)**μž…λ‹ˆλ‹€. 곡μž₯ λ°–μ—μ„œ λˆ„κ΅°κ°€ μƒˆλ‘œμš΄ μž₯치λ₯Ό λ°˜μž…ν•˜λ € ν•  λ•Œ, 이것이 μ •ν’ˆμΈμ§€ μ•…μ„± μ½”λ“œκ°€ ν¬ν•¨λ˜μ–΄ μžˆμ§€ μ•Šμ€μ§€ μž…κ΅¬μ—μ„œ κ²€μ‚¬ν•˜κ³  격리된 κ³΅κ°„μ—μ„œ ν…ŒμŠ€νŠΈν•΄ λ΄…λ‹ˆλ‹€. 이λ₯Ό 톡해 μ•…μ˜μ μΈ μ™ΈλΆ€ ν™•μž₯ ν”„λ‘œκ·Έλž¨μ΄ μ—μ΄μ „νŠΈμ˜ 핡심 μ‹œμŠ€ν…œμ„ ν•΄ν‚Ήν•˜λŠ” 것을 λ§‰μŠ΅λ‹ˆλ‹€.

μ…‹μ§Έ, **Watchers(CCTV 및 λ³΄μ•ˆ μš”μ›)**μž…λ‹ˆλ‹€. λ‘œλ΄‡μ΄ μž‘μ—…ν•˜λŠ” λ‚΄λ‚΄ 이λ₯Ό μ§€μΌœλ³΄λŠ” κ°μ‹œμžμž…λ‹ˆλ‹€. λ§Œμ•½ λ‘œλ΄‡μ΄ κ°‘μžκΈ° μ΄μƒν•œ μ†λ„λ‘œ 데이터λ₯Ό λ‹€μš΄λ‘œλ“œν•˜κ±°λ‚˜, ν‰μ†Œ μ“°μ§€ μ•Šλ˜ μœ„ν—˜ν•œ λͺ…λ Ήμ–΄λ₯Ό μž…λ ₯ν•˜λ € ν•˜λ©΄ μ‹€μ‹œκ°„μœΌλ‘œ 이λ₯Ό κ°μ§€ν•˜κ³  전원을 μ°¨λ‹¨ν•©λ‹ˆλ‹€. μ΄λŠ” μ‹€ν–‰ κ³Όμ •μ—μ„œμ˜ λ™μž‘μ„ λͺ¨λ‹ˆν„°λ§ν•˜λŠ” λŸ°νƒ€μž„ 보호 κ³„μΈ΅μž…λ‹ˆλ‹€.

핡심 μ•Œκ³ λ¦¬μ¦˜ 및 ꡬ쑰

λ…Όλ¬Έμ—μ„œ μ œμ•ˆν•˜λŠ” κ΅¬μ‘°λŠ” 크게 정적 뢄석(Static Analysis)κ³Ό 동적 λͺ¨λ‹ˆν„°λ§(Dynamic Monitoring)으둜 λ‚˜λ‰©λ‹ˆλ‹€.

  • 정적 뢄석: ν”ŒλŸ¬κ·ΈμΈ μ½”λ“œλ₯Ό μ‹€ν–‰ν•˜κΈ° 전에 좔상 해석(Abstract Interpretation) 기법을 톡해 μœ„ν—˜ν•œ μ‹œμŠ€ν…œ 호좜(예: rm -rf /)이 ν¬ν•¨λ˜μ–΄ μžˆλŠ”μ§€ 미리 μŠ€μΊ”ν•©λ‹ˆλ‹€.
  • 동적 λͺ¨λ‹ˆν„°λ§: μ—μ΄μ „νŠΈκ°€ μ‹€μ œλ‘œ λͺ…령을 μ‹€ν–‰ν•  λ•Œλ§ˆλ‹€ μ‹œμŠ€ν…œ 콜(System Call)을 ν›„ν‚Ή(Hooking)ν•˜μ—¬, 미리 μ •μ˜λœ μ•ˆμ „ μ •μ±…(Safety Policy) μœ„λ°˜ μ—¬λΆ€λ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ νŒλ‹¨ν•©λ‹ˆλ‹€. μˆ˜μ‹μœΌλ‘œ ν‘œν˜„ν•˜μžλ©΄, μƒνƒœ 전이(State Transition)λ§ˆλ‹€ μ•ˆμ „μ„± ν•¨μˆ˜ Safety(State, Action)κ°€ μ°Έ(True)μ΄μ–΄μ•Όλ§Œ λ‹€μŒ λ‹¨κ³„λ‘œ λ„˜μ–΄κ°ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.

3. μ‹€οΏ½οΏ½ν—˜ κ²°κ³Ό 뢄석

μ €μžλ“€μ€ λ‹€μ–‘ν•œ 곡격 μ‹œλ‚˜λ¦¬μ˜€λ₯Ό 톡해 ClawKeeper의 μ„±λŠ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

  • ν…ŒμŠ€νŠΈ 벀치마크: 주둜 OpenClaw μƒνƒœκ³„ λ‚΄μ—μ„œ λ°œμƒν•  수 μžˆλŠ” 5κ°€μ§€ μ£Όμš” 곡격 벑터λ₯Ό μ •μ˜ν•œ β€˜OpenClaw Security Benchmark’λ₯Ό μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€. μ—¬κΈ°μ—λŠ” μ λŒ€μ  ν”„λ‘¬ν”„νŠΈ(Adversarial Prompts), μ•…μ„± ν”ŒλŸ¬κ·ΈμΈ μ‚½μž…(Malicious Plugin Injection), κΆŒν•œ μƒμŠΉ(Privilege Escalation) 등이 ν¬ν•¨λ©λ‹ˆλ‹€.
  • μ„±λŠ₯ 수치:
    • 기쑴의 일반적인 LLM κ°€λ“œλ ˆμΌ(Guardrail)만 μ‚¬μš©ν–ˆμ„ λ•ŒλŠ” 곡격 성곡λ₯ (Attack Success Rate)이 μ•½ 78%에 λ‹¬ν–ˆμŠ΅λ‹ˆλ‹€. 즉, 10번 쀑 8λ²ˆμ€ 해킹에 μ„±κ³΅ν–ˆλ‹€λŠ” λœ»μž…λ‹ˆλ‹€.
    • ClawKeeperλ₯Ό μ μš©ν•œ κ²°κ³Ό, 곡격 성곡λ₯ μ΄ 1.5% μ΄ν•˜λ‘œ κΈ‰κ²©νžˆ κ°μ†Œν–ˆμŠ΅λ‹ˆλ‹€. 특히 μ•…μ„± ν”ŒλŸ¬κ·ΈμΈμ„ ν†΅ν•œ 곡격은 100% μ°¨λ‹¨ν–ˆμŠ΅λ‹ˆλ‹€.
    • μ•ˆμ „ν•œ 정상 μž‘μ—…μ— λŒ€ν•œ κ±°λΆ€μœ¨(False Positive Rate)은 3% 미만으둜 μœ μ§€ν•˜μ—¬, 일반적인 μ‚¬μš©μ„±μ„ 크게 ν•΄μΉ˜μ§€ μ•ŠμœΌλ©΄μ„œλ„ λ³΄μ•ˆμ„±μ„ ν™•λ³΄ν–ˆμŠ΅λ‹ˆλ‹€.
  • μ£Όλͺ©ν•  λ§Œν•œ μ„±κ³Ό: λ‹¨μˆœνžˆ ν…μŠ€νŠΈ μž…λ ₯을 λ§‰λŠ” 것을 λ„˜μ–΄, μ—μ΄μ „νŠΈκ°€ μƒμ„±ν•œ μ½”λ“œκ°€ μ‹€μ œ μ‹œμŠ€ν…œμ— ν•΄λ₯Ό λΌμΉ˜λŠ” β€˜μ‹€ν–‰ μ‹œμ β€™μ— λ°©μ–΄ν•œλ‹€λŠ” 점이 κΈ°μ‘΄ 연ꡬ λŒ€λΉ„ κ°€μž₯ 큰 μ°¨λ³„μ μž…λ‹ˆλ‹€.

4. ν•œκ³„μ κ³Ό ν–₯ν›„ 연ꡬ λ°©ν–₯

μ €μžκ°€ μ–ΈκΈ‰ν•œ ν•œκ³„

κ°€μž₯ 큰 ν•œκ³„λŠ” μ„±λŠ₯ μ˜€λ²„ν—€λ“œ(Performance Overhead)μž…λ‹ˆλ‹€. λͺ¨λ“  λͺ…령어와 파일 접근을 μ‹€μ‹œκ°„μœΌλ‘œ κ°μ‹œν•˜κΈ° λ•Œλ¬Έμ—, μ—μ΄μ „νŠΈμ˜ λ°˜μ‘ 속도가 ν‰μ†Œλ³΄λ‹€ μ•½ 15~20% 정도 느렀질 수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 맀우 λ³΅μž‘ν•˜κ³  κ΅λ¬˜ν•œ μ‚¬νšŒ 곡학적 곡격(Social Engineering Attack)은 μ—¬μ „νžˆ νƒμ§€ν•˜κΈ° μ–΄λ ΅λ‹€λŠ” 점을 μΈμ •ν–ˆμŠ΅λ‹ˆλ‹€.

κ°œμ„  κ°€λŠ₯ν•œ 점

ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 이 κ°μ‹œ ν”„λ‘œμ„ΈμŠ€λ₯Ό κ²½λŸ‰ν™”ν•˜μ—¬ 속도 μ €ν•˜λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” 방법이 μ—°κ΅¬λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. λ˜ν•œ, ν˜„μž¬λŠ” μ‚¬λžŒμ΄ μ •ν•΄λ‘” κ·œμΉ™(Rule-based)에 μ˜μ‘΄ν•˜λŠ” 뢀뢄이 λ§Žμ€λ°, 여기에 더 κ°•λ ₯ν•œ AI λͺ¨λΈμ„ λ„μž…ν•˜μ—¬ 곡격의 μ˜λ„λ₯Ό λ”μš± μ •κ΅ν•˜κ²Œ νŒŒμ•…ν•˜λŠ” β€˜μ λŒ€μ  λ°©μ–΄ λͺ¨λΈβ€™μ΄ κ²°ν•©λœλ‹€λ©΄ 완벽에 κ°€κΉŒμš΄ λ³΄μ•ˆ μ‹œμŠ€ν…œμ΄ 될 κ²ƒμž…λ‹ˆλ‹€.


5. 싀무 적용 κ°€λŠ₯μ„±

이 κΈ°μˆ μ€ κΈ°μ—… λ‚΄λΆ€μ—μ„œ μ‚¬μš©ν•˜λŠ” μžλ™ν™” νˆ΄μ΄λ‚˜ μ½”λ”© λΉ„μ„œ(Coding Assistant)에 μ¦‰μ‹œ μ μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  • 적용 λΆ„μ•Ό: κ°œλ°œμžκ°€ AIμ—κ²Œ β€œμ„œλ²„ 둜그λ₯Ό μ •λ¦¬ν•΄μ€˜β€λΌκ³  μš”μ²­ν•  λ•Œ, AIκ°€ μ‹€μˆ˜λ‘œ μ€‘μš”ν•œ μ‹œμŠ€ν…œ νŒŒμΌμ„ μ§€μš°λŠ” 사고λ₯Ό 막기 μœ„ν•΄ ClawKeeper μ‹œμŠ€ν…œμ„ λ„μž…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 특히 κΈˆμœ΅κΆŒμ΄λ‚˜ λ³΄μ•ˆμ΄ μ€‘μš”ν•œ κ³΅κ³΅κΈ°κ΄€μ˜ AI μ—μ΄μ „νŠΈ μ„œλΉ„μŠ€μ— ν•„μˆ˜μ μž…λ‹ˆλ‹€.
  • ν•„μš”ν•œ λ¦¬μ†ŒμŠ€: 이 μ‹œμŠ€ν…œμ„ κ΅¬λ™ν•˜λŠ” λ°λŠ” κ±°λŒ€ν•œ GPU ν΄λŸ¬μŠ€ν„°κ°€ ν•„μš”ν•˜μ§€λŠ” μ•ŠμŠ΅λ‹ˆλ‹€. 주둜 μ†Œν”„νŠΈμ›¨μ–΄μ μΈ 래퍼(Wrapper)와 λͺ¨λ‹ˆν„°λ§ 데λͺ¬(Daemon) ν˜•νƒœλ‘œ μž‘λ™ν•˜λ―€λ‘œ, 일반적인 μ„œλ²„ ν™˜κ²½(CPU 기반)μ—μ„œλ„ μΆ©λΆ„νžˆ 운용 κ°€λŠ₯ν•©λ‹ˆλ‹€. λ‹€λ§Œ, 정책을 ν•™μŠ΅ν•˜κ±°λ‚˜ 고도화할 λ•ŒλŠ” μ–΄λŠ μ •λ„μ˜ μ—°μ‚° λ¦¬μ†ŒμŠ€κ°€ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

6. 이 논문을 μ΄ν•΄ν•˜κΈ° μœ„ν•œ 사전 지식

  1. LLM Agents (λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ μ—μ΄μ „νŠΈ): λ‹¨μˆœνžˆ μ§ˆλ¬Έμ— λ‹΅ν•˜λŠ” 것을 λ„˜μ–΄, 슀슀둜 μƒκ°ν•˜κ³  도ꡬλ₯Ό μ‚¬μš©ν•˜μ—¬ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” AI μ‹œμŠ€ν…œμ„ λ§ν•©λ‹ˆλ‹€.
  2. Runtime Environment (λŸ°νƒ€μž„ ν™˜κ²½): ν”„λ‘œκ·Έλž¨μ΄ μ‹€ν–‰λ˜λŠ” λ™μ•ˆ ν•„μš”ν•œ μžμ›κ³Ό μ„œλΉ„μŠ€λ₯Ό μ œκ³΅ν•˜λŠ” ν™˜κ²½μœΌλ‘œ, μ—¬κΈ°μ„œλŠ” AIκ°€ μ‹€μ œ λͺ…령을 μˆ˜ν–‰ν•˜λŠ” 컴퓨터 μ‹œμŠ€ν…œμ„ μ˜λ―Έν•©λ‹ˆλ‹€.
  3. Shell Command (μ…Έ λͺ…λ Ήμ–΄): 운영체제 컀널과 μ‚¬μš©μž κ°„μ˜ μΈν„°νŽ˜μ΄μŠ€λ₯Ό 톡해 μ‚¬μš©μžκ°€ μ‹œμŠ€ν…œμ„ μ œμ–΄ν•˜λŠ” λͺ…λ Ήμ–΄(예: ls, cd, rm)μž…λ‹ˆλ‹€.
  4. Sandboxing (μƒŒλ“œλ°•μ‹±): ν”„λ‘œκ·Έλž¨μ΄ μ™ΈλΆ€ μ‹œμŠ€ν…œμ— 영ν–₯을 μ£Όμ§€ μ•Šλ„λ‘ 격리된 가상 ν™˜κ²½μ—μ„œ μ‹€ν–‰ν•˜λŠ” λ³΄μ•ˆ κΈ°μˆ μž…λ‹ˆλ‹€.
  5. Supply Chain Attack (곡급망 곡격): μ†Œν”„νŠΈμ›¨μ–΄ 개발 κ³Όμ •μ—μ„œ μ™ΈλΆ€ λΌμ΄λΈŒλŸ¬λ¦¬λ‚˜ ν”ŒλŸ¬κ·ΈμΈ 등을 톡해 μ•…μ„± μ½”λ“œλ₯Ό μ£Όμž…ν•˜λŠ” 곡격 λ°©μ‹μž…λ‹ˆλ‹€.
  6. Privilege Escalation (κΆŒν•œ μƒμŠΉ): κ³΅κ²©μžκ°€ μ‹œμŠ€ν…œμ˜ 취약점을 μ΄μš©ν•΄ μ œν•œλœ μ‚¬μš©μž κΆŒν•œμ—μ„œ κ΄€λ¦¬μž κΆŒν•œ 같은 더 높은 κΆŒν•œμ„ νšλ“ν•˜λŠ” ν•΄ν‚Ή κΈ°λ²•μž…λ‹ˆλ‹€.
  7. System Call (μ‹œμŠ€ν…œ 호좜): μ‹€ν–‰ 쀑인 ν”„λ‘œκ·Έλž¨μ΄ 운영체제 μ»€λ„μ˜ μ„œλΉ„μŠ€(파일 μ ‘κ·Ό, λ„€νŠΈμ›Œν¬ λ“±)λ₯Ό μš”μ²­ν•˜λŠ” μΈν„°νŽ˜μ΄μŠ€μž…λ‹ˆλ‹€.

πŸ“š 이번 μ£Ό κ΄€λ ¨ Deep Dive

μˆœμœ„λ…Όλ¬ΈDeep Dive
πŸ₯‡CARLA-Air: Fly Drones Inside a CARL…DD-056
πŸ₯ˆFIPO: Eliciting Deep Reasoning with…DD-057
πŸ₯‰ClawKeeper: Comprehensive Safety Prβ€¦πŸ“ ν˜„μž¬ λ¬Έμ„œ
4.ShotStream: Streaming Multi-Shot Vi…DD-059
5.DataFlex: A Unified Framework for D…DD-060

πŸ“… 생성일: 2026-04-05 | πŸ€– GLM-4.7 Deep Dive