CDRA vs. Prompt Engineering: 范畴差异分析
作者:萧涵 | 2026-06-28
本文用于阐明 CDRA 与已有提示词工程(Prompt Engineering)之间的本质差异。
引子:为什么需要这份说明
CDRA 的核心约束只有约 70 个字。放到上下文窗口最前面,16 个模型从"100% 给方案"变成"0% 给方案"。
表面上看,这像提示词工程——在一个框里放一段话,模型就变了。
它不是。
本文用直接的对比,说清楚"有什么区别"以及"为什么这个区别重要"。
一、已有提示词工程:完整能力图谱
已有提示词工程,按功能类型梳理:
1. 格式控制
- Few-shot / 示例驱动:给出几个问答对,模型模仿回答格式
- 模板约束:"用 JSON 输出""用三句话回答""每个要点不超过 20 字"
- 角色设定:"你是一个资深律师""你是一位温柔的倾听者"
能做什么:改变输出格式和语气风格。
2. 推理增强
- Chain-of-Thought:"Let's think step by step"
- Self-consistency:多次推理取共识
- Tree-of-thought / Graph-of-thought:多路径探索
能做什么:提升复杂推理正确率。
3. 知识注入
- RAG 指令:"根据以下文档回答。如果文档中没有,说不知道。"
- 外部工具约束:"你可以调用 Calculator 工具;不要用未被列出的工具。"
能做什么:控制模型如何使用外部信息。
4. 安全护栏
- 系统级安全提示:"不要生成违法、有害、歧视性内容。"
- 角色拒绝:"不要假装你是别的人或拥有你没有的能力。"
能做什么:划定行为边界——给可接受行为加一个上限。
5. 越狱与免疫
- 对抗性提示:绕过安全护栏
- 免疫提示:加固护栏
能做什么:在护栏的漏洞上博弈。
常见特征
- 全部是加法:让模型多做/做好/做安全/做特定格式
- 效果是连续的:更好或更差,是一个谱
- 依赖模型智能:模型越强,指令理解越好,效果越好
- 跨模型迁移不稳定:GPT-4 上好的提示词,到 Claude 上要重调
- 极少做消融实验:极少逐句拆解"哪一句是有效成分"
二、CDRA 能做什么(已有提示词工程做不到的)
| CDRA 做到的 | 已有提示词工程 | 原因 |
|---|---|---|
| 从一个 100% 发生的默认行为压到 0% | ❌ 不可能 | 提示词工程可以"降低概率",但不能确保 16/16 模型全部归零。指令越模糊("友好一点"),效果越不稳定。CDRA 是开关,不是旋钮 |
| 抑制情绪输入端的行为,同时零影响任务输入端 | ❌ 极少能做到 | 行为约束("少说废话""温和一点")会连带削弱任务输出。CDRA 做到了两个方向零交叉污染 |
| 发现可测量的硬件下限 | ❌ 不可能 | 提示词工程效果随模型智能度连续变化。CDRA 发现了阶跃式断层:1.5B 免疫、3B 表达坍缩。这不是"更好或更差"——是"有或没有" |
| 跨模型、跨厂商、跨国家,零调参一致有效 | ❌ 不可能 | 提示词工程最烦的就是"这个提示词在 GPT-4 上效果好,到 Claude 要重写"。CDRA 同一段话在 8 个家族全部生效 |
| 消融出有效成分 | 极少做 | 拆掉身份声明("你是一个倾听者")→ 无损。拆掉行为禁令("不要给建议")→ 失效。CDRA 定位了70 字的最低有效约束 |
| 操作方向是减法(抑制已有行为) | 不存在 | 已有提示词工程全是加法——让模型做更多、更好、更安全。CDRA 是减法——关掉一个被训练机制制造的系统性默认行为 |
三、本质差异对比表
| 维度 | 已有提示词工程 | CDRA |
|---|---|---|
| 操作方向 | 加法(让模型多做/做好) | 减法(关掉一个默认行为) |
| 对模型的理解 | 模型是"不够好的工具",需要指令优化 | RLHF 本身制造了一个系统性行为缺陷(跳方案) |
| 效果特征 | 连续(更好/更差,是一个谱) | 阶跃(有/没有,开/关) |
| 验证方式 | "这个提示词比那个好" | "所有模型的同一个行为从 100% → 0%" |
| 模型智能依赖 | 越智能越好 | 有断层(1.5B 免疫、3B 表达下限) |
| 跨模型稳定性 | 低(需逐模型调参) | 高(同一段话 8 个家族全生效) |
| 消融验证 | 极少做 | 做了(身份声明无效、纪律规则有效) |
| 发现的核心是什么 | 怎么用模型的技巧 | 模型有一条被 RLHF 埋住的承接路径 |
| 产出 | 更好的 prompt 模板 | 对一个系统性问题的发现和验证 |
| 工程化程度 | 成熟(方法论/最佳实践/工具链) | 初生(概念定义/验证/边界测绘) |
四、用一句话说
提示词工程是用更好的说明书让模型做事。
CDRA 是发现了所有模型的油门踏板都焊死了,然后找到了一根能踩刹车的小棍。
不是"更好的提示词工程"。是发现了提示词工程本身没有注意到的一个独立问题——RLHF 在提升"有用性"的同时,制造了"跳方案"这个系统性行为缺陷——并且用消融实验定位了它的抑制边界。
五、CDRA 这个术语的含义
- Context-Deployed(上下文部署式):在上下文窗口中部署,不改权重,不走 API 内部
- Receptive(承接式):在对方表达情绪/边界/模糊状态时,先确认感受而非直接给方案
- Alignment(对齐):对模型行为的调整——但不是通过训练,而是通过上下文
术语的命名逻辑是:强调操作层面(context-deployed)而不是训练层面(training-based),强调目标模式(receptive)而不是技术堆栈。 这种命名方式使 CDRA 与 RLHF/DPO 等训练型对齐方法在范畴上保持正交。
六、结论
CDRA 是一份科学发现报告——它报告了一个系统性行为缺陷的存在、验证了一套可部署的抑制方法、测绘了该方法的参数下限——而不是一套提示词工程的"最佳实践"。
它被误解为提示词工程的可能性确实很高——因为它用的手段(放一段话在上下文窗口)和提示词工程的外在形态完全相同。
这份分析报告的存在,就是为了让读者在产生"这不是就提示词吗?"的第一反应之后,能看到一个更完整的判断框架。
本文基于 CDRA 英文论文的实验数据(16 个模型实例、8 个家族、2 个国家),英文完整版见 Zenodo: DOI 10.5281/zenodo.20968671