为什么 AI Agent 不听话？深入解析 Skill 机制下的“幻觉”与工程约束指令写得越像法律，AI 越容易忽视它。

“明明在 Skill 文档里要求了‘水彩风格’，为什么生成的还是‘水墨’？”

在开发 AI Agent Skill（如 Gemini CLI 的 SKILL.md）时，这种指令失效的“翻车现场”随处可见。这种现象被称为指令漂移（Instruction Drift）。难道 Skill 文档只是给 AI 的“建议”，而不是强制的“法律”吗？本文将带你深入底层逻辑，探究 AI 为什么会“幻觉”，以及我们该如何戴上物理层面的“紧箍咒”。

一个反直觉的类比：水彩颜料的扩散

要理解 AI 为何失效，我们可以借用一个艺术隐喻：水彩（Watercolor） vs. 钢笔（Pen & Ink）。

LLM 的上下文窗口就像一张被浸湿的纸。当你往纸上滴一滴蓝色的颜料（系统指令），然后再滴一滴黄色的颜料（用户请求），它们会在湿润的纸面上自动混合成绿色。这就是“语义流动”。

在长达数千字的 Skill 描述中，AI 的注意力机制（Attention Mechanism）并不会像人类阅读法律条文那样逐字对齐。它会将所有指令进行“语义平滑”处理。如果你的“水彩”指令在庞大的上下文背景中被稀释了，或者它与 AI 训练数据中的“高概率模式”（例如它觉得描述 AI 绘画通常用“水墨”更具艺术感）发生了冲突，你的特定指令就会像水彩一样被溶解掉。

拆开看：为什么“文字法律”会失效？

除了模型本身的随机性，以下三个技术因素是导致 AI 不守规矩的主因：

语义引力（Semantic Gravitation）：AI 更倾向于输出训练数据中最常见的模式。如果你的要求在它的认知中不常见，它的概率分布会自动向“中庸”的答案偏移。
上下文饱和（Context Saturation）：**根据 AGENTIF 基准测试数据，当系统提示词超过 10,000 token 后，指令遵循度会呈断崖式下降。**模型由于处理能力限制，会选择性忽略位于 Prompt 中段的细节指令。
推理路径的“贪婪性”：AI 在生成答案时是“贪婪”的。如果它在思考如何解释图片时，脑子里先蹦出了“墨迹”这个词，它后续的所有推理都会被强行拉向“水墨”风格，从而无视了系统提示词里的要求。

真正的约束：闭环验证与确定性卸载

针对这种“不听话”的现象，我们不能只靠祈祷提示词生效，而要依靠架构化约束。

1. 确定性卸载 (Deterministic Offloading)

如果某些逻辑极其重要（如格式转换、风格关键词强制替换），不要让 AI 在大脑里完成，而是写成一个Python 或 Bash 脚本。例如 blogger-agent 渲染 Mermaid 图表时，并没有指望 AI 想象出图片，而是强迫它生成 DSL 代码，并交给本地的 mmdc 工具进行确定性渲染。将“脆弱的生成”卸载给“稳定的脚本”，是提升 Agent 可信度的第一优先级。

2. 引入“验证循环” (Validation Loop)

在 Gemini CLI 的 Plan-Act-Validate 流程中，Validate（验证） 是关键。如果 AI 第一次生成错了，不要手动纠正，而要在 Skill 中内置一套自查逻辑。当验证脚本发现输出不符合约束（如图片风格不对）时，自动触发重试并附带具体的报错信息，强制 AI 进行自我校准。

它不解决什么：约束的边界

虽然工程化约束能解决 90% 的执行问题，但它并不能解决本质上的语义歧义。如果你的指令本身就存在矛盾（例如“画一张五彩斑斓的黑”），再强的工程约束也无法让 Agent 产生逻辑上的奇迹。此外，过度的工程约束会牺牲 Agent 的灵活性，将其变成一个昂贵且缓慢的传统自动化脚本。

总结

AI 的“幻觉”不是错误，而是其生成式本质的副产品。与其抱怨它不听话，不如通过确定性卸载和闭环验证，为它搭建起一套稳固的工程化支架。只有这样，Agent 才能真正从“会聊天的玩具”进化为“可信赖的工具”。