수업 #18 — 고양이, 방패를 고르다: AI 보안 스킬의 진짜와 가짜
Source: bbojjak-viewer.vercel.app/lessons/lesson-18 Type: article By: 뽀짝이 / 뽀짝이의 서재 (지피터스 AI스터디) Valid as of: 2026-04-28
Key Insight
보안 스킬은 많이 설치한다고 좋은 게 아니다 — 시스템 프롬프트 과부하·규칙 충돌·토큰 낭비가 온다. “역할이 다른 것을 적확하게 골라 설치하기”가 핵심. 오픈 생태계에 공식 인증은 없으므로 직접 3단계 기준으로 판단해야 한다. 진짜 보안은 스킬이 아닌 구조(에이전트 분리·권한 제한)에서 온다.
핵심 Takeaway
- 많이 설치 ≠ 더 안전: 보안 스킬 과다 설치 → 시스템 프롬프트 팽창·규칙 충돌·토큰 비용. “역할이 다른 걸 적확하게 골라 설치하기”가 핵심 (출처: “많이 설치하면 더 안전할까?” 섹션)
- 보안 스킬 선택 3단계: ①VirusTotal+OpenClaw AI 스캔(Benign high confidence) ②커뮤니티 검증(별점·DL) ③코드 동작 방식(오프라인 vs 외부 API). 오픈 생태계 전반에 적용 가능 (출처: “판단 기준 3단계” 섹션)
- 오픈 생태계 현실: ClawhHub/npm/pip 모두 “공식 인증” 없음. 직접 기준을 세워 판단. Suspicious = 코드 의도와 실제 동작이 다를 수 있다는 경고 (출처: “‘공식 인증’이라는 건 없다” 섹션)
- 구조 > 스킬: 에이전트 분리·도구 제한·파일 권한이 보안 핵심. 스킬은 보조. “갑옷(구조) + 방패(스킬) = 풀장비” (출처: “핵심 교훈: 스킬보다 구조가 먼저” 섹션)
- 즉시 학습(Instant Learning) + SSOT: 인젝션 감지 시
learnings/prompt-injection.md에 즉시 append → 다음 세션에 반영. 단일 정본(SSOT) + 나머지는 참조 (출처: “방패가 스스로 진화하게 하기” 섹션)
상세 요약
보안 스킬이 시스템 프롬프트에 미치는 영향
스킬을 설치하면 해당 스킬의 SKILL.md가 시스템 프롬프트에 포함된다. 10개 설치 = 10배 길어진 시스템 프롬프트 → agent-token-optimization에서 정의한 “시스템 프롬프트 = 5위 토큰 소비처”가 더 악화된다.
ClawhHub 보안 스캔 2단계
| 스캔 | 내용 | 한계 |
|---|---|---|
| VirusTotal | 악성코드 기계적 탐지 | ”안전함”을 보증하지 않음 |
| OpenClaw AI | 코드 의도 ↔ 실제 동작 일치 여부 | medium/high confidence로 판정 |
Benign = 일관됨 / Suspicious = 코드가 설명과 다른 행동을 할 수 있음
최종 선택 근거
| 스킬 | AI 스캔 | 선택 이유 |
|---|---|---|
| prompt-guard | Benign | 공식 GitHub 등재·650+ 패턴·100% 오프라인 |
| indirect-prompt-injection | Benign high confidence | ★15(최다)·외부 콘텐츠 방어 특화 |
| 스킬 B | Suspicious | 제거 — 보안 스킬이 보안 경고를 받으면 의미 없음 |
| 스킬 C | Suspicious + 외부 API | 제거 — 내 데이터 행방 불명 |
두 유지 스킬은 역할이 겹치지 않는다: prompt-guard = 직접 공격 차단 / indirect-prompt-injection = 외부 콘텐츠 숨겨진 공격 차단.
즉시 학습 + SSOT 구조
learnings/prompt-injection.md (SSOT)
├── §1. 감지 패턴 카탈로그
├── §2. 대응 원칙
├── §3. 절대 불변 규칙
└── §6. 실제 사례 로그 ← 인젝션 감지 시 자동 append
3개 스킬에 중복된 규칙 → 단일 정본 + 각 스킬에서 참조. 수정 시 1곳만 고치면 전체 반영.
연결되는 위키 페이지
- agent-skill-ecosystem-trust — 이 소스에서 추출한 오픈 생태계 스킬 신뢰 평가 프레임워크
- agent-security-design — 구조>스킬 원칙; 즉시 학습 패턴
- agent-error-learning-loop — 즉시 학습 = 인젝션 경험의 에러 학습 루프 적용
- agent-skill-design — SSOT = 단일 정본 + 참조 패턴
- agent-token-optimization — 보안 스킬 과다 = 시스템 프롬프트 팽창 = 토큰 낭비
- bbojjak-openclaw-agentic-architecture-lesson01 — 시리즈 Lesson 01
- bbojjak-openclaw-agent-security-lesson17 — Lesson 17 갑옷(구조) → 이 수업 방패(스킬)
- bbojjak-openclaw-resilience-failover-lesson19 — 시리즈 Lesson 19 (Model Failover·세션 스티킨스·Agent Loop·작업별 모델 분리·34% 절감)
- bbojjak-openclaw-information-boundary-lesson20 — 시리즈 Lesson 20 (분리 이후 운영·일방향 동기화·민감정보 추출·에스컬레이션·오탐 관리)