同样是写提示词，为什么别人的插件输出从不漂移？如何写一个“工程化”的插件提示词：稳定、可回溯、可判定如果你想把大模型接

如何写一个“工程化”的插件提示词：稳定、可回溯、可判定

如果你想把大模型接进插件/CLI/自动化流程，最难的往往不是“能不能生成”，而是：能不能稳定地生成。

这篇文章给一套我在工程里反复验证过的写法：用硬约束（决策树）+ 评分制（阈值裁决）+ 占比权重（次信号用于“平分时裁决”），把提示词从“聊天文本”升级为“可执行协议”。

1. 这类提示词适合做什么？

当你的插件/工具需要模型输出可被程序稳定消费的结果时，这套“硬约束 + 评分制 + 阈值 + 占比权重”的提示词尤其适合：

结构化分类/打标：从输入内容中选择一个分类标签（或少量标签），并给出摘要（例如：日志告警分级、工单分类、内容合规分流）。
路由决策/分流：决定下一步走哪个处理分支（例如：客服分流、自动化工单路由、FAQ/人工升级判断）。
提取与归一化：把非结构化文本提取为固定字段（例如：从报错日志提取模块/错误码/环境/影响范围）。
规则化生成：输出必须符合协议的文本（例如：固定格式的标题、固定字段的 JSON、固定模板的说明）。

不太适合的场景：

开放式创作：没有明确输出协议、越发散越好的内容（这类不需要“可判定”与“阈值”）。
强依赖主观审美：例如文案润色/风格化写作（规则会束缚模型发挥）。

2. 提示词是什么（把它当成“接口协议”，不是作文）

提示词（prompt）本质上是你对模型下达的任务规格说明书。在插件场景，它更像“接口协议”，通常包含三层信息：

目标：要模型最终产出什么（例如：只输出 1 条结构化结果 label: summary）。
输入：模型可以依赖的上下文是什么（例如：原始文本/日志片段、标签字典、配置项、历史样例）。
约束与规则：模型如何做决策、哪些必须遵守、哪些禁止（例如：某些标签必须/禁止出现；输出格式固定；禁止多余解释）。

关键点：你不是在教模型“理解世界”，你是在约束模型“按你定义的协议办事”。

你写得越“工程化”，它越稳定；你写得越“文艺”，它越随机。

2.1 一个好的插件提示词必须做到哪些（工程指标）

把“好不好”拆成可评估指标，会让 Prompt 优化有方向：

把“好不好”拆成可评估指标，会让提示词优化有方向：

稳定：相同/相近输入，输出类型与结构不漂移；不会随措辞、顺序随机跳。
可判定：存在明确的裁决规则（阈值/优先级/硬约束）；人能解释“为什么选这个标签”。
可回溯：输出能追溯到输入证据（哪怕证据不输出，规则里要求“记录最强证据”也能提升模型自检能力）。
可维护：新增/调整一个标签，不需要推倒重写；规则分层清晰（硬约束/评分/兜底）。
可防污染：输出严格遵守协议，不夹带解释、步骤、markdown、额外文本。
可扩展：能支持多类型/多意图输入，且有明确的“主意图”规则。

3. 常见误区（为什么会漂）

3.1 只有“描述”，没有“可执行规则”

比如只写“请为输入选择一个合适的分类标签”，模型会凭经验猜，结果就会漂（同一类输入可能得到不同标签）。

改法：把抽象要求变成“决策树/评分制/阈值”这类可执行规则。

3.2 规则互相打架、优先级不清

同一段里同时说“关键词优先”“需要推理”“优先级 A>B>…”，模型会随机取其一。

改法：明确“硬约束 > 评分裁决 > 默认兜底”的优先级；把冲突点写成“禁止/必须”。

3.3 没有“边界条件”，导致模型过度泛化

例如输入里混入“元信息/噪声字段”很容易诱导模型选错标签，但你实际想表达的是“核心内容分类”。

改法：把容易误判的场景写成显式规则（例如：“仅当 100% 都是元信息时才允许输出 meta 标签”）。

3.4 过度依赖“关键词匹配”

输入里未必出现你预设的“关键词”，关键词匹配会失效。

改法：关键词只能当“信号”，核心还是让模型基于语义模式判断（新增/删除/结构调整/异常处理/格式调整等）。

3.5 输出格式不严谨

插件最怕“多说一句”，因为会直接污染最终可消费的输出（例如你要把结果写入文件/进入后续流程）。

改法：输出格式要像接口协议一样严格：只允许固定结构，禁止任何额外解释。

4. 怎么写好一个插件提示词（可复用模板）

下面给一套“从需求到可执行提示词”的写法模板，你可以直接套用到任何 CLI/插件类场景。

4.1 先写清楚三件事：目标、输入、输出

目标：一句话描述最终产物（例如：生成 1 条 label: summary 的结构化文本）。
输入：列出所有输入并标注“重要性”（例如：原始内容最重要，标签字典次之，历史样例再次）。
输出：严格定义格式（例如：label: summary + 可选 meta）。

4.2 用“硬约束（决策树）”锁住必须正确的点

硬约束适合放以下内容：

业务硬规则：例如某类敏感内容 → 必须归为特定标签；或必须打上 blocked。
禁止项：例如某些标签在特定场景禁止出现。
纯标签触发条件：例如 meta 只有在“100% 都是元信息/无核心内容”时才允许。

写法要点：

用 必须/禁止/仅当…才允许 这种词，不要用“尽量/建议/最好”。
把“例外情况”写清楚，否则模型会自己补脑。

4.3 再用“评分制 + 阈值”做到可判定、可回溯

一个通用的稳定结构是：
先提取输入信号，再对每个标签打分，然后用阈值做裁决。

评分制建议包含：

评分对象：从 <labels>（或标签字典）的 key 中选（避免模型发明新标签）。
评分依据：以 <labels> 的描述/特征为准。
阈值：例如“领先 ≥ 2 且覆盖 >60%”判为单类型，否则走多类型裁决。
自检要求：要求模型“记录最强证据但不输出”（提高稳定性）。

4.4 引入“占比/权重”时要写清楚边界（只做“平分时裁决”）

一个常见做法是：summary（摘要）作为 label 参考，占比 20%（或其它轻权重信号），很关键。

占比写法的正确姿势：

先算主信号：content（80%）先出结论
再用次信号加权：summary（20%）只参与“平分时裁决”
明确禁止推翻硬约束
给出触发条件：例如仅在分数接近（差值 < 2）或加权后领先 ≥ 2 才允许调整

这样可以避免“次信号反客为主”的不稳定行为：先看主证据（content），再让 summary 轻微校验与裁决。

4.5 多标签/多意图：明确“主意图”规则

多标签/多意图是最常见的漂移来源。建议固定一条规则：

选择“主意图/主信息”的 label
其它信息体现在 summary（合并描述），不要拆成多条输出

4.6 给插件提示词加一个“防污染条款”

建议在输出格式前再强调一次：

禁止输出分析过程
禁止输出多条结果
禁止输出解释性文字

并明确“最终只生成一个结果内容”。

5. 一个“技术博客级”的例子：坏提示词 vs 好提示词（更简单版）

下面用“文本情绪三分类插件”举例：输入是一句话，插件要输出 label: summary，其中 label 只能从 POS/NEG/NEU 中选择。

5.1 错误提示词（典型反例）

问题：目标模糊、没有硬约束、没有阈值、输出不受控，模型会漂且会输出多余解释。

请分析下面这句话表达的情绪，并给出原因与建议。
<content>
...
</content>

5.2 正确提示词（更稳定、可判定、可回溯）

它为什么“好”：输出协议严格、硬约束明确、评分制+阈值可裁决、summary 仅 20% 参与“平分时裁决”且不推翻硬约束。

你是“文本情绪三分类插件”的决策引擎。你的输出会被程序直接消费，请严格遵守协议。

## 目标
基于输入文本 <content>，从 <labels> 中选择 1 个 label，并生成 1 句 summary（<= 20 字）。

## 输入
- 文本：
<content>
{{TEXT}}
</content>
- 标签字典：
<labels>
POS: 明显正向/认可/喜欢/感谢/满意
NEG: 明显负向/抱怨/生气/失望/不满
NEU: 中性陈述/信息描述/无法判断情绪
</labels>

## 输出格式（严格）
只允许输出 1 个结果，且必须完全符合：
label: summary

## 决策（在脑内完成，不要输出过程）
### 1) 硬约束（最高优先级）
- 若文本包含强烈正向词（如“太棒了/很好/满意/感谢/喜欢”）→ label 必须为 POS
- 若文本包含强烈负向词（如“垃圾/气死/很差/失望/退钱/投诉”）→ label 必须为 NEG
- 若文本主要是事实陈述或信息不足（无明显情绪词）→ label 必须为 NEU

### 2) 评分制（0~5）
- Step A：提取信号：情绪词强度、否定词、语气词、标点（如“！！！”）、是否仅陈述事实
- Step B：对 POS/NEG/NEU 分别打分（0~5），并记录 1 条最强证据（不输出）

### 3) 阈值裁决
- 若最高分领先第二名 ≥ 2 → 选择最高分 label
- 若差值 < 2 → 默认选择 NEU（避免误判）

### 4) summary 参与加权（占比 20%）
- 先基于文本完成 label 判定（80%）
- 再用 summary 的措辞信号做轻量校验（20%），仅用于差值 < 2 的裁决
- summary 不允许推翻硬约束

## 防污染条款
- 禁止解释、禁止建议、禁止输出多行、禁止输出 markdown

6. 一份可直接复用的提示词骨架（模板）

你可以按下面结构组织任何插件提示词（把 <> 换成你的输入标签）：

目标：……

输入：
- <content>……
- <labels>……
- <examples>(可选)……

输出格式（严格）：
label: summary

meta(可选)

决策：
1) 硬约束（必须/禁止）
2) 评分制（0~5）：评分对象、评分依据、阈值
3) 多标签裁决：主标签优先，其他信息进 summary
4) 次信号占比：如 summary 20%，仅用于“平分时裁决”，不能推翻硬约束
5) 默认兜底

7. 写完自检清单（上线前必过）

是否明确了 输出格式，并禁止额外文本？
是否有 硬约束 覆盖必对项（必须/禁止）？
是否有 评分制 + 阈值，避免“凭感觉”？
是否定义了 多类型裁决？
是否把“占比信号”的边界写清（只做“平分时裁决”，不推翻硬约束）？
是否为“易误判场景”（如噪声/元信息混入）写了规则？

自述

欢迎大家一起探讨这套提示词的写法。我也是在不断迭代、反复踩坑和复盘之后，才把这些“可落地、可判定”的经验沉淀成本文的总结。内容未必完美；如果你有更好的思路、改进建议，欢迎留言交流。