AI 用 Skill 也会"说胡话"?我做了一个执行可靠性审查工具

17 阅读4分钟

AI 用 Skill 也会"说胡话"?我做了一个执行可靠性审查工具

项目地址:github.com/CoderMoray/…
适用人群:正在开发或使用 AI Skill 的开发者



Intro

AI 执行 Skill 会出错,而且它不会告诉你。
HaluCatch 用四维框架审查 Skill 可靠性:地基 · 代码 · 规则 · 护栏。
零依赖 Python CLI,开源 MIT。→ GitHub


一个问题

你让 AI 帮你处理数据,它执行了一个 Skill,跑完了,输出了一堆结果。

问题是:你敢直接用这些结果做决策吗?

AI 执行 Skill 时最常见的问题,不是"不会做",而是以为自己会做但做错了——而且它不会告诉你。

我把它叫 Halu(幻觉),然后做了一个工具去 Catch(捕获) 它。


三类失效场景

场景实际发生了什么
地基不稳Skill 里的数据路径是硬编码的,换个环境就挂;没有输入校验,数据格式一变就错位
规则歧义"活跃用户"到底怎么定义?Skill 里没写清楚,AI 按自己的理解填了一个,你没发现
缺解读护栏AI 在报告里写了"显著提升",但其实 p 值 = 0.31,它只是很自信地错了

这些问题有一个共同点:运行不报错,结果看起来正常,但答案是错的。


HaluCatch 做了什么

对一个 Skill 包做四维扫描,输出三版报告。

四维评估框架

halucatch-4d-framework.png

🏗️ 地基  — 数据管线是否稳固(路径/校验/依赖声明)
🤖 代码  — 代码质量风险(路径拼接/静默覆盖/除零等篡改点)
📝 规则  — 业务口径有无歧义(映射/分类/边界是否固化)
🛡️ 护栏  — 解读规则是否到位(因果禁令/效应量框架/自检机制)

前两项靠脚本扫描(确定性高),后两项靠 AI 语义判断(需要上下文)。

halucatch-workflow.png

三版报告

版本给谁看内容特点
专业版开发者/工程人员逐项检查结果 + 分数 + 修复建议
通俗版业务方零术语,白话描述风险
行动版下次执行的 AI修复指引 + feedback 模板,形成闭环

它和同类工具有什么不同?

Skill 审查这个赛道目前只有四个工具,切角完全不同:

HaluCatchskill-vetterSkillGuardskill-sharpener
切角执行可靠性(工程)安全审查(红队)全生命周期守护文案质量(最佳实践)
评估方式脚本基线 + AI 语义纯 AI 按协议检查AI + 规则引擎纯 AI 按 checklist 打分
闭环✅ 行动版含修复指引✅ 含自动修复
跨语言✅ 结构信号,不绑语言🟡 英文为主✅ 中英文🟡 依赖 AI 理解

HaluCatch 有三个"唯一":

  1. 唯一有骨架脚本halucatch_core.py 提供可复现的基线检查,不依赖 AI 主观判断
  2. 唯一含修复闭环 — 发现 → 修复方案 → 重新审查验证
  3. 唯一跨语言 — 用结构信号(清单/图标/表格密度)替代语义关键词,中英文都支持

在线体验

不方便装 Skill?直接在浏览器里试试 HaluCatch:

👉 在线 Demo

进入页面后,AI 会带你走一遍完整审查流程——从扫描 Skill 目录到输出三版报告,全部在浏览器里完成。支持暗色/亮色/跟随系统三种主题。

三版报告 Tab(标准版 / 专业版 / AI 行动版)可随时切换,滑动指示条 + 内容横切动画 + 高度平滑过渡,交互细节拉满。


快速体验

方式一:在 AI 对话里直接用

请用 HaluCatch 审查这个 Skill:~/.workbuddy/skills/xlsx

方式二:命令行运行

python3 halucatch_core.py --skill-dir ~/.workbuddy/skills/xlsx

审查完成后,reports/ 目录下生成三份报告。


实战案例

我用 HaluCatch 审查了 10 个真实 Skill,有几个发现:

  • xlsx / pptx 这类工具库 Skill:地基 🟢,但护栏 🟡(缺禁止 AI 乱改格式的约束)
  • find-skills(Skill 生态搜索工具):方法论 🟢,但护栏 🟡(缺 3/5 项安全约束)
  • neodata-financial-search:护栏 🟢(7/8 项到位,金融数据场景的标杆)

自测结果:HaluCatch 审查自己,护栏 🟡 缺项 5/8。如果仅考分析流程,但是在工作流里,作者赋予了 agent 对结果进行查验的能力,分析后该项实际值为 🟢 7/8 项到位。


为什么开源

两个原因:

  1. Skill 生态在爆发,但质量参差不齐。没有人做"执行可靠性"这个切面,我是第一个。
  2. 审查工具本身也应该被审查。开源让所有人都能验证我的检查逻辑是否合理。

项目信息

  • 开源协议:MIT
  • GitHubgithub.com/CoderMoray/…
  • 适用平台:WorkBuddy / Claude / 任何支持 Skill 机制的 AI 助手
  • 零依赖halucatch/ 包纯 Python 标准库,无需安装任何第三方包

如果这个项目对你有用,欢迎 Star / Fork / 提 Issue。也欢迎把你的 Skill 审查结果分享出来,一起建立 Skill 质量基准线。


Tags: #AIAgent #Skill开发 #开源项目 #Python #工程质量