用 Claude 测 Claude：一种"用魔法打败魔法"的测试思路用 Claude 测 Claude：一种"用魔法打败

用 Claude 测 Claude：一种"用魔法打败魔法"的测试思路

写 skill 的时候遇到一个问题：怎么知道 Claude 真的听你的话了？

传统的测试不管用。你没法 unit test 一个 prompt。你只能：

与其问 Claude "你懂了没"，不如给它一个真实任务，让它做，然后检查它有没有按 skill 说的做。

这就是这套测试框架的核心思想。

问：你知道 subagent-driven-development 这个 skill 吗？
期望答：知道，它包含 Load Plan、Spec Review、Code Review...

用正则匹配它的回答，看看关键概念都在。

优点：快，2 分钟跑完缺点：只验证"理解"，不验证"做"

1. 创建一个 Node.js 项目
2. 写一个实现计划（故意埋个坑）
3. 让 Claude 执行这个计划
4. 检查它的行为和产出

具体怎么检查？靠 Claude 自己的"黑匣子"——session 记录。

每次 Claude 运行完，会生成一个 .jsonl 文件，记录完整的对话历史：

{"type":"assistant","message":{"toolCalls":[{"name":"Task",...}]}}
{"type":"user","toolUseResult":{"agentId":"task-xxx","usage":{...}}}

从这里面能看到：

测试 subagent-driven-development 这个 skill，要验证 6 件事：

计划里可以故意埋个坑：

## Task 2: Multiply 函数
**要求**：只做乘法，不要加其他功能

如果实施者偷懒，加了个除法函数，spec 审查者应该发现并标记。

测试脚本会检查产出的代码有没有计划外的东西。这里不是 FAIL，是 WARN——因为它在测试审查者的眼力。

传统测试的问题这个方案怎么解决无法测试"行为" 直接分析 session 文件 Claude 说得比做的好听让它做真的，看产出 Prompt 玄学有数据支撑的验证改 skill 心里没底跑一遍集成测试就知道

与其问 Claude "你懂了没"，不如给它一个任务，让它做，然后查它的作业。

Session 文件就是它的作业记录。分析它，就能验证 skill 有没有被正确执行。

用魔法打败魔法。