DD-058 ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

arXiv: 2603.24414 Upvotes: 174 | Comments: 4 순위: 이번 주 Top 3

안녕하세요. AI/ML 전문가이자 논문 리뷰어로서, 최근 발표된 ‘ClawKeeper’ 논문을 주니어 개발자 관점에서 완벽하게 이해할 수 있도록 심도 있게 분석해 드리겠습니다. 이 논문은 향후 2026년의 기술 환경을 다루고 있지만, 제시하는 개념은 현재의 AI 에이전트 개발에도 매우 중요한 시사점을 던집니다.

1. 왜 이 논문이 중요한가?

기존의 AI 보안 연구는 주로 사용자가 악의적인 질문을 던질 때 모델이 이를 거부하는지에 초점을 맞췄습니다. 하지만 이 논문은 AI가 단순한 챗봇을 넘어, 파일을 삭제하거나 코드를 실행하는 ‘작동 시스템(Runtime)‘으로 진화하는 현상에 주목합니다. 이 논문은 에이전트가 마치 운영체제처럼 행동하는 환경(OpenClaw)에서, 도구(Tool) 사용이나 외부 플러그인(Plugin) 설치 과정에서 발생할 수 있는 시스템 레벨의 보안 취약점을 해결하는 최초의 포괄적인 프레임워크를 제시했다는 점에서 획기적입니다.

2. 핵심 아이디어 쉽게 이해하기

일상생활 비유: 완벽한 경비원이 있는 스마트 공장

이 논문의 핵심인 ‘ClawKeeper’를 이해하려면, 첨단 로봇 팔이 작동하는 ‘스마트 공장’을 상상해 보세요.

OpenClaw(공장): 로봇 팔(AI 에이전트)이 망치와 톱(도구)을 자유롭게 사용하며, 외부에서 새로운 기계(플러그인)도 가져다 놓을 수 있는 자유로운 공장입니다.
위험 요소: 로봇이 “창문을 부수라”는 잘못된 명령을 받거나, 외부에서 가져온 새로운 기계에 폭탄이 숨겨져 있을 수 있습니다.
ClawKeeper(통합 경비 시스템): 이 시스템은 크게 세 가지 역할을 합니다.

단계별 동작 원리

첫째, **Skills(작업 표준 매뉴얼)**입니다. 로봇이 망치를 집어 들 때, 그 망치로 유리창을 깨려는 시도가 아닌지, 못을 박는 정상적인 용도인지 즉시 확인하는 절차입니다. 즉, 에이전트가 도구를 사용하기 직전에 해당 행동이 안전한지 사전에 정의된 규칙(Skill 래퍼)을 통해 검사합니다.

둘째, **Plugins(기계 검역소)**입니다. 공장 밖에서 누군가 새로운 장치를 반입하려 할 때, 이것이 정품인지 악성 코드가 포함되어 있지 않은지 입구에서 검사하고 격리된 공간에서 테스트해 봅니다. 이를 통해 악의적인 외부 확장 프로그램이 에이전트의 핵심 시스템을 해킹하는 것을 막습니다.

셋째, **Watchers(CCTV 및 보안 요원)**입니다. 로봇이 작업하는 내내 이를 지켜보는 감시자입니다. 만약 로봇이 갑자기 이상한 속도로 데이터를 다운로드하거나, 평소 쓰지 않던 위험한 명령어를 입력하려 하면 실시간으로 이를 감지하고 전원을 차단합니다. 이는 실행 과정에서의 동작을 모니터링하는 런타임 보호 계층입니다.

핵심 알고리즘 및 구조

논문에서 제안하는 구조는 크게 정적 분석(Static Analysis)과 동적 모니터링(Dynamic Monitoring)으로 나뉩니다.

정적 분석: 플러그인 코드를 실행하기 전에 추상 해석(Abstract Interpretation) 기법을 통해 위험한 시스템 호출(예: rm -rf /)이 포함되어 있는지 미리 스캔합니다.
동적 모니터링: 에이전트가 실제로 명령을 실행할 때마다 시스템 콜(System Call)을 후킹(Hooking)하여, 미리 정의된 안전 정책(Safety Policy) 위반 여부를 실시간으로 판단합니다. 수식으로 표현하자면, 상태 전이(State Transition)마다 안전성 함수 Safety(State, Action)가 참(True)이어야만 다음 단계로 넘어갈 수 있습니다.

3. 실��험 결과 분석

저자들은 다양한 공격 시나리오를 통해 ClawKeeper의 성능을 입증했습니다.

테스트 벤치마크: 주로 OpenClaw 생태계 내에서 발생할 수 있는 5가지 주요 공격 벡터를 정의한 ‘OpenClaw Security Benchmark’를 사용했습니다. 여기에는 적대적 프롬프트(Adversarial Prompts), 악성 플러그인 삽입(Malicious Plugin Injection), 권한 상승(Privilege Escalation) 등이 포함됩니다.
성능 수치:
- 기존의 일반적인 LLM 가드레일(Guardrail)만 사용했을 때는 공격 성공률(Attack Success Rate)이 약 78%에 달했습니다. 즉, 10번 중 8번은 해킹에 성공했다는 뜻입니다.
- ClawKeeper를 적용한 결과, 공격 성공률이 1.5% 이하로 급격히 감소했습니다. 특히 악성 플러그인을 통한 공격은 100% 차단했습니다.
- 안전한 정상 작업에 대한 거부율(False Positive Rate)은 3% 미만으로 유지하여, 일반적인 사용성을 크게 해치지 않으면서도 보안성을 확보했습니다.
주목할 만한 성과: 단순히 텍스트 입력을 막는 것을 넘어, 에이전트가 생성한 코드가 실제 시스템에 해를 끼치는 ‘실행 시점’에 방어한다는 점이 기존 연구 대비 가장 큰 차별점입니다.

4. 한계점과 향후 연구 방향

저자가 언급한 한계

가장 큰 한계는 성능 오버헤드(Performance Overhead)입니다. 모든 명령어와 파일 접근을 실시간으로 감시하기 때문에, 에이전트의 반응 속도가 평소보다 약 15~20% 정도 느려질 수 있습니다. 또한, 매우 복잡하고 교묘한 사회 공학적 공격(Social Engineering Attack)은 여전히 탐지하기 어렵다는 점을 인정했습니다.

개선 가능한 점

향후 연구에서는 이 감시 프로세스를 경량화하여 속도 저하를 최소화하는 방법이 연구되어야 합니다. 또한, 현재는 사람이 정해둔 규칙(Rule-based)에 의존하는 부분이 많은데, 여기에 더 강력한 AI 모델을 도입하여 공격의 의도를 더욱 정교하게 파악하는 ‘적대적 방어 모델’이 결합된다면 완벽에 가까운 보안 시스템이 될 것입니다.

5. 실무 적용 가능성

이 기술은 기업 내부에서 사용하는 자동화 툴이나 코딩 비서(Coding Assistant)에 즉시 적용할 수 있습니다.

적용 분야: 개발자가 AI에게 “서버 로그를 정리해줘”라고 요청할 때, AI가 실수로 중요한 시스템 파일을 지우는 사고를 막기 위해 ClawKeeper 시스템을 도입할 수 있습니다. 특히 금융권이나 보안이 중요한 공공기관의 AI 에이전트 서비스에 필수적입니다.
필요한 리소스: 이 시스템을 구동하는 데는 거대한 GPU 클러스터가 필요하지는 않습니다. 주로 소프트웨어적인 래퍼(Wrapper)와 모니터링 데몬(Daemon) 형태로 작동하므로, 일반적인 서버 환경(CPU 기반)에서도 충분히 운용 가능합니다. 다만, 정책을 학습하거나 고도화할 때는 어느 정도의 연산 리소스가 필요할 수 있습니다.

6. 이 논문을 이해하기 위한 사전 지식

LLM Agents (대규모 언어 모델 에이전트): 단순히 질문에 답하는 것을 넘어, 스스로 생각하고 도구를 사용하여 문제를 해결하는 AI 시스템을 말합니다.
Runtime Environment (런타임 환경): 프로그램이 실행되는 동안 필요한 자원과 서비스를 제공하는 환경으로, 여기서는 AI가 실제 명령을 수행하는 컴퓨터 시스템을 의미합니다.
Shell Command (셸 명령어): 운영체제 커널과 사용자 간의 인터페이스를 통해 사용자가 시스템을 제어하는 명령어(예: ls, cd, rm)입니다.
Sandboxing (샌드박싱): 프로그램이 외부 시스템에 영향을 주지 않도록 격리된 가상 환경에서 실행하는 보안 기술입니다.
Supply Chain Attack (공급망 공격): 소프트웨어 개발 과정에서 외부 라이브러리나 플러그인 등을 통해 악성 코드를 주입하는 공격 방식입니다.
Privilege Escalation (권한 상승): 공격자가 시스템의 취약점을 이용해 제한된 사용자 권한에서 관리자 권한 같은 더 높은 권한을 획득하는 해킹 기법입니다.
System Call (시스템 호출): 실행 중인 프로그램이 운영체제 커널의 서비스(파일 접근, 네트워크 등)를 요청하는 인터페이스입니다.

📚 이번 주 관련 Deep Dive

순위	논문	Deep Dive
🥇	CARLA-Air: Fly Drones Inside a CARL…	DD-056
🥈	FIPO: Eliciting Deep Reasoning with…	DD-057
🥉	ClawKeeper: Comprehensive Safety Pr…	📍 현재 문서
4.	ShotStream: Streaming Multi-Shot Vi…	DD-059
5.	DataFlex: A Unified Framework for D…	DD-060

📅 생성일: 2026-04-05 | 🤖 GLM-4.7 Deep Dive

Quartz 4

탐색기

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers