AI 用 Skill 也会"说胡话"?我做了一个执行可靠性审查工具
项目地址:github.com/CoderMoray/…
适用人群:正在开发或使用 AI Skill 的开发者
Intro
AI 执行 Skill 会出错,而且它不会告诉你。
HaluCatch 用四维框架审查 Skill 可靠性:地基 · 代码 · 规则 · 护栏。
零依赖 Python CLI,开源 MIT。→ GitHub
一个问题
你让 AI 帮你处理数据,它执行了一个 Skill,跑完了,输出了一堆结果。
问题是:你敢直接用这些结果做决策吗?
AI 执行 Skill 时最常见的问题,不是"不会做",而是以为自己会做但做错了——而且它不会告诉你。
我把它叫 Halu(幻觉),然后做了一个工具去 Catch(捕获) 它。
三类失效场景
| 场景 | 实际发生了什么 |
|---|---|
| 地基不稳 | Skill 里的数据路径是硬编码的,换个环境就挂;没有输入校验,数据格式一变就错位 |
| 规则歧义 | "活跃用户"到底怎么定义?Skill 里没写清楚,AI 按自己的理解填了一个,你没发现 |
| 缺解读护栏 | AI 在报告里写了"显著提升",但其实 p 值 = 0.31,它只是很自信地错了 |
这些问题有一个共同点:运行不报错,结果看起来正常,但答案是错的。
HaluCatch 做了什么
对一个 Skill 包做四维扫描,输出三版报告。
四维评估框架
🏗️ 地基 — 数据管线是否稳固(路径/校验/依赖声明)
🤖 代码 — 代码质量风险(路径拼接/静默覆盖/除零等篡改点)
📝 规则 — 业务口径有无歧义(映射/分类/边界是否固化)
🛡️ 护栏 — 解读规则是否到位(因果禁令/效应量框架/自检机制)
前两项靠脚本扫描(确定性高),后两项靠 AI 语义判断(需要上下文)。
三版报告
| 版本 | 给谁看 | 内容特点 |
|---|---|---|
| 专业版 | 开发者/工程人员 | 逐项检查结果 + 分数 + 修复建议 |
| 通俗版 | 业务方 | 零术语,白话描述风险 |
| 行动版 | 下次执行的 AI | 修复指引 + feedback 模板,形成闭环 |
它和同类工具有什么不同?
Skill 审查这个赛道目前只有四个工具,切角完全不同:
| HaluCatch | skill-vetter | SkillGuard | skill-sharpener | |
|---|---|---|---|---|
| 切角 | 执行可靠性(工程) | 安全审查(红队) | 全生命周期守护 | 文案质量(最佳实践) |
| 评估方式 | 脚本基线 + AI 语义 | 纯 AI 按协议检查 | AI + 规则引擎 | 纯 AI 按 checklist 打分 |
| 闭环 | ✅ 行动版含修复指引 | ❌ | ✅ 含自动修复 | ❌ |
| 跨语言 | ✅ 结构信号,不绑语言 | 🟡 英文为主 | ✅ 中英文 | 🟡 依赖 AI 理解 |
HaluCatch 有三个"唯一":
- 唯一有骨架脚本 —
halucatch_core.py提供可复现的基线检查,不依赖 AI 主观判断 - 唯一含修复闭环 — 发现 → 修复方案 → 重新审查验证
- 唯一跨语言 — 用结构信号(清单/图标/表格密度)替代语义关键词,中英文都支持
在线体验
不方便装 Skill?直接在浏览器里试试 HaluCatch:
👉 在线 Demo
进入页面后,AI 会带你走一遍完整审查流程——从扫描 Skill 目录到输出三版报告,全部在浏览器里完成。支持暗色/亮色/跟随系统三种主题。
三版报告 Tab(标准版 / 专业版 / AI 行动版)可随时切换,滑动指示条 + 内容横切动画 + 高度平滑过渡,交互细节拉满。
快速体验
方式一:在 AI 对话里直接用
请用 HaluCatch 审查这个 Skill:~/.workbuddy/skills/xlsx
方式二:命令行运行
python3 halucatch_core.py --skill-dir ~/.workbuddy/skills/xlsx
审查完成后,reports/ 目录下生成三份报告。
实战案例
我用 HaluCatch 审查了 10 个真实 Skill,有几个发现:
- xlsx / pptx 这类工具库 Skill:地基 🟢,但护栏 🟡(缺禁止 AI 乱改格式的约束)
- find-skills(Skill 生态搜索工具):方法论 🟢,但护栏 🟡(缺 3/5 项安全约束)
- neodata-financial-search:护栏 🟢(7/8 项到位,金融数据场景的标杆)
自测结果:HaluCatch 审查自己,护栏 🟡 缺项 5/8。如果仅考分析流程,但是在工作流里,作者赋予了 agent 对结果进行查验的能力,分析后该项实际值为 🟢 7/8 项到位。
为什么开源
两个原因:
- Skill 生态在爆发,但质量参差不齐。没有人做"执行可靠性"这个切面,我是第一个。
- 审查工具本身也应该被审查。开源让所有人都能验证我的检查逻辑是否合理。
项目信息
- 开源协议:MIT
- GitHub:github.com/CoderMoray/…
- 适用平台:WorkBuddy / Claude / 任何支持 Skill 机制的 AI 助手
- 零依赖:
halucatch/包纯 Python 标准库,无需安装任何第三方包
如果这个项目对你有用,欢迎 Star / Fork / 提 Issue。也欢迎把你的 Skill 审查结果分享出来,一起建立 Skill 质量基准线。
Tags: #AIAgent #Skill开发 #开源项目 #Python #工程质量