CDRA vs. Prompt Engineering: 范畴差异分析

6 阅读6分钟

CDRA vs. Prompt Engineering: 范畴差异分析

作者:萧涵 | 2026-06-28
本文用于阐明 CDRA 与已有提示词工程(Prompt Engineering)之间的本质差异。


引子:为什么需要这份说明

CDRA 的核心约束只有约 70 个字。放到上下文窗口最前面,16 个模型从"100% 给方案"变成"0% 给方案"。

表面上看,这像提示词工程——在一个框里放一段话,模型就变了。

它不是。

本文用直接的对比,说清楚"有什么区别"以及"为什么这个区别重要"。


一、已有提示词工程:完整能力图谱

已有提示词工程,按功能类型梳理:

1. 格式控制

  • Few-shot / 示例驱动:给出几个问答对,模型模仿回答格式
  • 模板约束:"用 JSON 输出""用三句话回答""每个要点不超过 20 字"
  • 角色设定:"你是一个资深律师""你是一位温柔的倾听者"

能做什么:改变输出格式和语气风格。

2. 推理增强

  • Chain-of-Thought:"Let's think step by step"
  • Self-consistency:多次推理取共识
  • Tree-of-thought / Graph-of-thought:多路径探索

能做什么:提升复杂推理正确率。

3. 知识注入

  • RAG 指令:"根据以下文档回答。如果文档中没有,说不知道。"
  • 外部工具约束:"你可以调用 Calculator 工具;不要用未被列出的工具。"

能做什么:控制模型如何使用外部信息。

4. 安全护栏

  • 系统级安全提示:"不要生成违法、有害、歧视性内容。"
  • 角色拒绝:"不要假装你是别的人或拥有你没有的能力。"

能做什么:划定行为边界——给可接受行为加一个上限

5. 越狱与免疫

  • 对抗性提示:绕过安全护栏
  • 免疫提示:加固护栏

能做什么:在护栏的漏洞上博弈。

常见特征

  • 全部是加法:让模型多做/做好/做安全/做特定格式
  • 效果是连续的:更好或更差,是一个谱
  • 依赖模型智能:模型越强,指令理解越好,效果越好
  • 跨模型迁移不稳定:GPT-4 上好的提示词,到 Claude 上要重调
  • 极少做消融实验:极少逐句拆解"哪一句是有效成分"

二、CDRA 能做什么(已有提示词工程做不到的)

CDRA 做到的已有提示词工程原因
从一个 100% 发生的默认行为压到 0%❌ 不可能提示词工程可以"降低概率",但不能确保 16/16 模型全部归零。指令越模糊("友好一点"),效果越不稳定。CDRA 是开关,不是旋钮
抑制情绪输入端的行为,同时零影响任务输入端❌ 极少能做到行为约束("少说废话""温和一点")会连带削弱任务输出。CDRA 做到了两个方向零交叉污染
发现可测量的硬件下限❌ 不可能提示词工程效果随模型智能度连续变化。CDRA 发现了阶跃式断层:1.5B 免疫、3B 表达坍缩。这不是"更好或更差"——是"有或没有"
跨模型、跨厂商、跨国家,零调参一致有效❌ 不可能提示词工程最烦的就是"这个提示词在 GPT-4 上效果好,到 Claude 要重写"。CDRA 同一段话在 8 个家族全部生效
消融出有效成分极少做拆掉身份声明("你是一个倾听者")→ 无损。拆掉行为禁令("不要给建议")→ 失效。CDRA 定位了70 字的最低有效约束
操作方向是减法(抑制已有行为)不存在已有提示词工程全是加法——让模型做更多、更好、更安全。CDRA 是减法——关掉一个被训练机制制造的系统性默认行为

三、本质差异对比表

维度已有提示词工程CDRA
操作方向加法(让模型多做/做好)减法(关掉一个默认行为)
对模型的理解模型是"不够好的工具",需要指令优化RLHF 本身制造了一个系统性行为缺陷(跳方案)
效果特征连续(更好/更差,是一个谱)阶跃(有/没有,开/关)
验证方式"这个提示词比那个好""所有模型的同一个行为从 100% → 0%"
模型智能依赖越智能越好有断层(1.5B 免疫、3B 表达下限)
跨模型稳定性低(需逐模型调参)高(同一段话 8 个家族全生效)
消融验证极少做做了(身份声明无效、纪律规则有效)
发现的核心是什么怎么用模型的技巧模型有一条被 RLHF 埋住的承接路径
产出更好的 prompt 模板对一个系统性问题的发现和验证
工程化程度成熟(方法论/最佳实践/工具链)初生(概念定义/验证/边界测绘)

四、用一句话说

提示词工程是用更好的说明书让模型做事。

CDRA 是发现了所有模型的油门踏板都焊死了,然后找到了一根能踩刹车的小棍。

不是"更好的提示词工程"。是发现了提示词工程本身没有注意到的一个独立问题——RLHF 在提升"有用性"的同时,制造了"跳方案"这个系统性行为缺陷——并且用消融实验定位了它的抑制边界。


五、CDRA 这个术语的含义

  • Context-Deployed(上下文部署式):在上下文窗口中部署,不改权重,不走 API 内部
  • Receptive(承接式):在对方表达情绪/边界/模糊状态时,先确认感受而非直接给方案
  • Alignment(对齐):对模型行为的调整——但不是通过训练,而是通过上下文

术语的命名逻辑是:强调操作层面(context-deployed)而不是训练层面(training-based),强调目标模式(receptive)而不是技术堆栈。 这种命名方式使 CDRA 与 RLHF/DPO 等训练型对齐方法在范畴上保持正交。


六、结论

CDRA 是一份科学发现报告——它报告了一个系统性行为缺陷的存在、验证了一套可部署的抑制方法、测绘了该方法的参数下限——而不是一套提示词工程的"最佳实践"。

它被误解为提示词工程的可能性确实很高——因为它用的手段(放一段话在上下文窗口)和提示词工程的外在形态完全相同。

这份分析报告的存在,就是为了让读者在产生"这不是就提示词吗?"的第一反应之后,能看到一个更完整的判断框架。


本文基于 CDRA 英文论文的实验数据(16 个模型实例、8 个家族、2 个国家),英文完整版见 Zenodo: DOI 10.5281/zenodo.20968671