AI 用 Skill 也会"说胡话"？我做了一个执行可靠性审查工具AI Skill 也会"说胡话"？我做了一个执行可靠性

AI 用 Skill 也会"说胡话"？我做了一个执行可靠性审查工具

项目地址：github.com/CoderMoray/…
适用人群：正在开发或使用 AI Skill 的开发者

AI 执行 Skill 会出错，而且它不会告诉你。
HaluCatch 用四维框架审查 Skill 可靠性：地基 · 代码 · 规则 · 护栏。
零依赖 Python CLI，开源 MIT。→ GitHub

你让 AI 帮你处理数据，它执行了一个 Skill，跑完了，输出了一堆结果。

问题是：你敢直接用这些结果做决策吗？

AI 执行 Skill 时最常见的问题，不是"不会做"，而是以为自己会做但做错了——而且它不会告诉你。

我把它叫 Halu（幻觉），然后做了一个工具去 Catch（捕获） 它。

场景	实际发生了什么
地基不稳	Skill 里的数据路径是硬编码的，换个环境就挂；没有输入校验，数据格式一变就错位
规则歧义	"活跃用户"到底怎么定义？Skill 里没写清楚，AI 按自己的理解填了一个，你没发现
缺解读护栏	AI 在报告里写了"显著提升"，但其实 p 值 = 0.31，它只是很自信地错了

这些问题有一个共同点：运行不报错，结果看起来正常，但答案是错的。

对一个 Skill 包做四维扫描，输出三版报告。

🏗️ 地基  — 数据管线是否稳固（路径/校验/依赖声明）
🤖 代码  — 代码质量风险（路径拼接/静默覆盖/除零等篡改点）
📝 规则  — 业务口径有无歧义（映射/分类/边界是否固化）
🛡️ 护栏  — 解读规则是否到位（因果禁令/效应量框架/自检机制）

前两项靠脚本扫描（确定性高），后两项靠 AI 语义判断（需要上下文）。

Skill 审查这个赛道目前只有四个工具，切角完全不同：

	HaluCatch	skill-vetter	SkillGuard	skill-sharpener
切角	执行可靠性（工程）	安全审查（红队）	全生命周期守护	文案质量（最佳实践）
评估方式	脚本基线 + AI 语义	纯 AI 按协议检查	AI + 规则引擎	纯 AI 按 checklist 打分
闭环	✅ 行动版含修复指引	❌	✅ 含自动修复	❌
跨语言	✅ 结构信号，不绑语言	🟡 英文为主	✅ 中英文	🟡 依赖 AI 理解

HaluCatch 有三个"唯一"：

不方便装 Skill？直接在浏览器里试试 HaluCatch：

进入页面后，AI 会带你走一遍完整审查流程——从扫描 Skill 目录到输出三版报告，全部在浏览器里完成。支持暗色/亮色/跟随系统三种主题。

三版报告 Tab（标准版 / 专业版 / AI 行动版）可随时切换，滑动指示条 + 内容横切动画 + 高度平滑过渡，交互细节拉满。

方式一：在 AI 对话里直接用

请用 HaluCatch 审查这个 Skill：~/.workbuddy/skills/xlsx

方式二：命令行运行

python3 halucatch_core.py --skill-dir ~/.workbuddy/skills/xlsx

审查完成后，reports/ 目录下生成三份报告。

我用 HaluCatch 审查了 10 个真实 Skill，有几个发现：

自测结果：HaluCatch 审查自己，护栏 🟡 缺项 5/8。如果仅考分析流程，但是在工作流里，作者赋予了 agent 对结果进行查验的能力，分析后该项实际值为 🟢 7/8 项到位。

两个原因：

如果这个项目对你有用，欢迎 Star / Fork / 提 Issue。也欢迎把你的 Skill 审查结果分享出来，一起建立 Skill 质量基准线。

Tags: #AIAgent #Skill开发 #开源项目 #Python #工程质量