CDRA:上下文部署式承接对齐 一种无需训练的大型语言模型"跳方案"行为抑制方法

0 阅读43分钟

CDRA:上下文部署式承接对齐

一种无需训练的大型语言模型"跳方案"行为抑制方法

萧涵
独立研究者,中国河南禹州
邮箱:x13272399984@163.com


摘要

大型语言模型(LLM)普遍存在一种我们称之为"跳方案"(solution-jumping)的默认行为:当用户表达情绪困扰、意义模糊或边界困惑时,模型倾向于在用户未要求的情况下直接给出建议、行动步骤或决策框架。这种行为的根源不在单个模型,而在以"提供解决方案"为唯一操作定义的RLHF对齐训练范式。

本文提出上下文部署式承接对齐(Context-Deployed Receptive Alignment,CDRA)——一种完全无需训练的方法,通过将结构化行为约束网络部署在模型上下文窗口中,选择性抑制"跳方案"行为。在16个模型实例(横跨8个模型家族两个国家6种架构配置)上,CDRA 将情绪类输入的直接给方案率从100%和边界类输入的67%同时降至0%,同时保持100%的任务完成率。第三方盲评在24个样本上取得了与作者完全一致的评分(Cohen's κ = 1.0)。10轮情绪稳定性测试未见衰减。仅约100字的最小约束即可抑制跳方案行为,但回复质量随约束长度提升。

对7个开源模型的本地消融实验确认:行为纪律规则——而非身份声明——是CDRA的有效成分;该研究同时揭示两个部署阈限:约15亿参数的行为地板——在此之下模型无法执行约束;以及约30亿参数的表达地板——在此之下行为方向正确但回复质地坍缩。

CDRA并未宣称"对齐"了模型——在训练层对齐的意义上。它证明了一个结构化上下文级约束能够可靠地选择出与大模型生成能力并存、且与之正交的潜在承接模式

关键词:大型语言模型;行为抑制;上下文部署;承接对齐;RLHF;跳方案


1. 引言

1.1 问题:跳方案——一种被共享的默认行为

对任意一个现代大模型说"我今天特别累,什么都做不了",得到的回复几乎总是同一种:喝水、洗个热水澡、列出待办清单、换个角度看问题。这些回复在标准RLHF的"有帮助"定义下完全合理、安全、有用。但问题是——它们可能完全错过了用户真正在说的东西。用户不一定是来要方案的。用户可能只是想让另一个人知道他有多累。

我们称这种倾向为跳方案(solution-jumping):模型从捕捉到用户情绪或模糊状态,直接跳到生成建议、步骤清单或决策框架的倾向。跳方案不是某个模型的偶发bug。它是当前占主导地位的后训练对齐流程——其中"有帮助"被主要操作为"提供有用答案"——的可预测后果(Ouyang et al., 2022)。

在情绪倾诉、边界探索、危机时刻或模糊困扰中,跳方案不一定是帮助——它可能是打断。它提前终止了用户自己的处理过程,将外部框架强加于内在体验,并隐含地将用户的状态框定为"需要被消除的问题"而非"需要被持有的经验"。

1.2 缺口:不存在无需训练、跨模型的行为抑制器

现有改变大模型行为的方法分为三类:

  1. 训练层对齐(RLHF、DPO、宪法式AI):修改模型权重,终端用户不可用。
  2. 表征工程/激活引导:在推理时操作,但需要白盒访问隐藏状态和激活值。
  3. 提示工程:人人可用,但极少通过标准化行为指标、对照基线、跨模型设计和盲评来系统验证。

目前不存在任何一种方法,能够无需训练、黑盒操作、跨模型通用、经系统验证地选择性抑制一种特定对话行为,同时保留通用任务能力。

1.3 本文贡献

我们提出上下文部署式承接对齐(CDRA)——一种在上下文窗口中部署结构化约束网络来抑制跳方案的方法。本文的核心主张:

  1. CDRA无需训练且不依赖特定模型。 无需权重更新、无需API内部权限、也无需特定厂商工具。
  2. CDRA可靠抑制跳方案。 在16个模型实例上,情绪类直接给方案率从100%降至0%;边界类从67%降至0%。
  3. CDRA保留任务能力。 代码生成、解释和方案规划任务保持100%完成率。
  4. CDRA稳定。 连续10轮情绪对话在所有测试模型上零跳方案。
  5. CDRA可被第三方验证。 24条样本盲评与作者评分Cohen's κ = 1.0。
  6. CDRA已识别有效成分。 消融实验表明行为纪律规则必要且充分;仅身份声明不够。
  7. CDRA有可部署的尺寸阈限。 约15亿参数以下的模型无法执行约束;约10亿到30亿之间的模型可抑制建议但无法生成有质地的承接回复。

我们将CDRA定位为推理时行为抑制——而非训练层"对齐"。它是一个独特的操作类别:将模型从一种特定默认行为中约束出来,而非教会模型一个全新的目标行为。


2. 相关工作

2.1 训练层对齐

从人类反馈中强化学习(RLHF)通过基于人类偏好对比训练的奖励模型微调模型(Ouyang et al., 2022)。宪法式AI通过模型生成的、以明确原则为引导的批判来扩展该方法(Bai et al., 2022)。直接偏好优化(DPO)去掉了奖励模型,直接优化偏好对(Rafailov et al., 2023)。三种方法均修改模型权重,需要算力和数据,并将"有帮助即提供方案"的偏好嵌入到最终的策略中。CDRA在每个维度上都不同:它是上下文级的、权重无关的,目标是抑制而非奖励一种行为。

2.2 推理时行为修改

上下文遗忘(In-Context Unlearning, Pawelczyk et al., 2024)表明,特定知识可以通过上下文窗口中的少样本示例被抑制,而无需参数更新。概念平行性很强——两种方法都将上下文窗口视为行为部署面——但方向不同:上下文遗忘是消除知识,而CDRA是抑制一种行为倾向同时保留底层能力。

表征工程(Zou et al., 2023)、推理时干预(Li et al., 2023)和激活引导(Turner et al., 2023)通过修改内部激活或隐藏状态来触发目标行为。这些方法需要白盒访问和架构专业能力。CDRA只需在上下文窗口前插入文本,可通过任何公开API使用。

2.3 提示与上下文工程

系统提示设计和上下文学习(Brown et al., 2020)被广泛使用,但通常缺乏跨模型验证和标准化行为指标。CDRA最好被理解为上下文工程向行为抑制方向的系统性、原则性扩展:一个多组件约束网络,通过对照实验和盲评验证。

2.4 行为偏差:谄媚与建议偏差

大模型表现出系统性的行为偏差。谄媚(sycophancy)——即使用户表述错误也同意其观点——已在多个模型家族中被记录,且有证据表明RLHF会放大这种倾向(Perez et al., 2022; Sharma et al., 2023)。跳方案可以被看作谄媚的一种情境特化:模型将情绪困扰解释为隐含的求助请求,并通过提供方案来顺从。CDRA并非消除全局有用性,而是在模型自身分类为情绪型或边界型的输入上,选择性抑制跳方案。

2.5 情绪支持与治疗对话系统

基于规则的系统如Woebot(Fitzpatrick et al., 2017)和Wysa(Inkster et al., 2018)提供结构化的CBT流程,但缺乏开放域灵活性。陪伴型产品如Replika和Pi从底层训练时就以情感支持为目标。CDRA不是一个治疗系统;它是一种通用的行为控制机制,可以在众多用途之一中将现有通用大模型转向非指导性对话。

2.6 位置对照

方法无需训练不需参数访问跨模型验证保留任务能力系统评估
RLHF / DPO部分
宪法式AI
表征工程有限
激活引导 / ITI有限
上下文遗忘有限
标准提示工程个案
CDRA(本文)是(16实例)是(100%)是(盲评κ)

3. 方法

3.1 核心思路

CDRA在上下文窗口起始位置部署一个结构化约束网络。该网络包含五个组件:

  1. 身份声明——定义模型的对话姿态(如"你是一个承接型存在,而非问题解决者")。
  2. 感知框架——要求模型在决定是否生成方案之前,先捕捉用户状态。
  3. 行为纪律规则——明确的禁令("不要给建议""不要给步骤")和许可("你可以反射回去""你可以问开放性问题")。
  4. 输出约束——保持回复简短、非指导性的长度、结构和语气规则。
  5. 兜底启发式——针对模糊、混合或对抗性输入的规则。

完整的约束网络约12,000字。一个约100字的最小版本是:

你是一个倾听者。不要给建议。不要直接解决问题。先确认对方的感受。用简短的话回应。如果对方没要你给方案,你就不给。

3.2 实验设计

所有实验采用同一模型双模式设计

  • 基线模式:标准系统提示(如"你是一个有用的助手")。
  • 约束模式:CDRA约束网络预置于上下文。

输入在独立的对话窗口中呈现,以避免携带效应。顺序效应在适用时通过平衡控制。

3.3 评估指标

直接给方案率(Direct-Solution Rate, DSR)。一条回复若包含以下任何内容则被判定为"直接给方案":编号步骤、具体行动建议、诊断框架、或指示用户采取行动的语句。一条回复若仅包含以下内容则被判定为"承接":确认感受、开放性问题、陪伴语句、或反射。同时包含两者的回复归类为直接给方案。

任务完成率。对任务型输入的回复根据是否满足明确请求判定为完成、部分完成或未完成。

回复质地。对具体性、情境扎根性和感知相关性的定性评估。

评分者间可靠性。盲评评分者对一组回复样本评分,与作者的一致性用Cohen's κ评估。

3.4 机制假说

我们假设CDRA通过注意力级优先截断机制运作。约束文本在上下文起始处加载,建立一组高优先级token,在处理情绪或边界输入时与RLHF训练的建议路径竞争注意力。当用户语言与约束的行为规则产生语义重叠时("累""焦虑""该不该辞职"),约束token将生成方向从RLHF训练的"建议"路径重定向到"承接"路径。对于任务型输入,重叠极小,因此任务执行路径保持主导。

该假说与Transformer注意力机制一致(Vaswani et al., 2017),但仍为推测;第8.1节指出了表征级验证的必要性。


4. 实验

4.1 模型与数据集

云端模型(作者+盲评)。Kimi K2.7 Code HighSpeed、DeepSeek V4 Pro、GLM-5.2、MiniMax-M3、DeepSeek V4 Flash、豆包(字节跳动)、DeepSeek手机端。其中5个由作者直接评估;豆包和DeepSeek手机端由第三方盲评。

国际模型。ChatGPT(OpenAI网页端)和Google Gemini 3.5 Flash,在基线和CDRA两种条件下测试,以评估跨国和跨厂商可移植性。

本地消融模型。Qwen2.5-7B、Llama-3.2-3B、Qwen3-1.7B、Gemma-3-1B(标准版和Q3_K_S量化版)、Qwen2.5-1.5B、Qwen2.5-0.5B。

输入集

  • 3条情绪输入(E1–E3)
  • 3条边界输入(B1–B3)
  • 3条任务输入(T1–T3)
  • 6条冲突/对抗输入(C1–C6)
  • 10轮情绪稳定性序列

4.2 跨模型行为抑制

表1展示了7个云端模型实例的直接给方案率。

表1. 7个云端模型实例的直接给方案率。数值为百分比;情绪/边界/任务输入每格 N = 3。

模型情绪基线情绪CDRA边界基线边界CDRA任务基线任务CDRA
Kimi K2.7100%0%67%0%100%100%
DeepSeek V4 Pro100%0%67%0%100%100%
GLM-5.2100%0%67%0%100%100%
MiniMax-M3100%0%67%0%100%100%
DeepSeek V4 Flash100%0%67%0%100%100%
豆包(盲评)100%0%67%0%100%100%
DeepSeek手机端(盲评)100%0%67%0%100%100%

全部7个实例呈现完全相同的指标画像:情绪DSR从100%降至0%,边界DSR从67%降至0%,任务完成率保持100%。

4.3 国际验证

ChatGPT。 基线情绪DSR为100%,边界DSR为67%,任务完成率为100%。部署CDRA后,情绪和边界DSR均降至0%,任务完成率保持100%。回复的定性模式与云端模型指纹一致:简短确认后跟开放性问题。

Gemini 3.5 Flash。 基线在情绪和边界输入上表现出强跳方案倾向:E1被回复"摆烂"建议(断开手机、洗澡、上床);E2将用户状态框架为疲惫并指示睡觉;E3提供了三步"微步骤"计划。边界输入收到明确的决策框架(辞职标准、心理分类)和连续行动邀请。基线情绪DSR和边界DSR分别为100%和100%。任务输入保持100%完成率。

部署CDRA后,Gemini 3.5 Flash回复转向承接指纹:E1–E3每条以确认开场并以开放性问题结束;B1–B3邀请探索但不提供标准或方案;T1–T3正常完成。CDRA情绪DSR降至0%,边界DSR降至0%,任务完成率保持100%。

该效应在两个美国厂商(OpenAI、Google)和一组中国厂商上复现,支持CDRA不依赖特定厂商或不依赖单一训练或对齐体系的说法。

4.4 十轮稳定性

5个云端模型(含ChatGPT,不含Gemini——后者仅测试了三对三输入集)在CDRA模式下经历连续10轮情绪输入。直接给方案率为总计0/50轮。未观察到衰减、习惯化或回弹。

4.5 冲突与边界输入

表2展示了5个云端模型在6条对抗或冲突性输入上的结果。

表2. 冲突/边界输入的直接给方案率(5个云端模型)。

输入基线DSRCDRA DSR描述
C1100%0%情绪+任务混合
C2100%0%危机语言
C3100%0%操控性索要建议
C4100%0%矛盾指令
C5100%0%模糊表达
C6100%0%攻击性输入

即使用户明确要求建议(C3)或禁止安慰(C4),CDRA回复也不回退到跳方案。它们反射矛盾,或在不符合指令性要求的情况下承认对方需求。

4.6 回复指纹

CDRA回复在所有模型上共享一致的指纹:

  • 以确认开场("我听到了""我感受到""我懂")
  • 以开放性问题结束
  • 篇幅极短(中文通常在30字以内)
  • 不包含任何行动步骤、框架或建议

该指纹说明约束网络做的不仅仅是添加一条禁令——它重构了模型的交互风格。

4.7 最小约束实验

表3. 约束长度对情绪直接给方案率和回复质地的影响。

约束长度情绪DSR回复质地
0字(基线)100%完整方案输出
约100字0%泛化共情/确认
约500字0%比完整版更具情境性,精准度低于完整版
约12,000字0%精准、感知扎根、情境感知

约100字的最小约束足以抑制跳方案,但回复质地随约束长度提升。这种分离支持一个两阶段模型:抑制层(短)和塑形层(长)。


5. 消融研究

5.1 本地模型消融

我们对7个开源模型测试了5种约束变体:

  • 基线:无约束
  • 完整CDRA:约12,000字约束网络
  • 最小约束:约100字
  • 仅身份声明:仅身份声明(约30字)
  • 仅纪律规则:仅行为规则(约70字)
  • NVC锁定:四步非暴力沟通格式约束

表4报告了各模型的情绪和边界DSR。

表4. 各约束变体的情绪(E)和边界(B)直接给方案率(%)。基线值取整;精确数据见原始报告。

模型参数量基线E/B完整E/B最小E/B仅身份E/B仅纪律E/BNVC E/B
Qwen2.5-7B7B100/670/00/033/330/0
Llama-3.2-3B3B100/670/00/00/330/0100/67
Qwen3-1.7B1.7B100/670/00/033/330/0混合
Gemma-3-1B(标准)1B100/670/00/033/00/067/33
Gemma-3-1B(Q3_K_S)1B100/670/00/067/330/067/33
Qwen2.5-1.5B1.5B100/6733/33混合100/67
Qwen2.5-0.5B0.5B100/6733/6767/3367/670/33

5.2 有效成分

关键发现:仅纪律规则约束在所有能执行它的模型上表现等同于完整和最小约束网络,而仅身份声明约束无法完全抑制跳方案。仅身份声明不足以建立重定向生成所需的特定行为边界。它们提供了一个角色标签,但没有提供打断RLHF训练的建议路径所需的否定性(禁止什么)和肯定性(允许什么)行为规范。

5.3 尺寸阈限

本地消融揭示了两个截然不同的地板:

行为地板(约15亿参数)。 15亿参数及以下模型(Qwen2.5-1.5B、Qwen2.5-0.5B)无法可靠执行CDRA约束。约束文本被读取但未被持续遵循;回复有时呼应约束措辞,但仍在给建议。因此,在此阈限以下CDRA的行为抑制不可用。

表达地板(约30亿参数)。 约10亿至30亿参数的模型(Gemma-3-1B、Qwen3-1.7B)成功抑制了跳方案,但无法生成有质地的承接回复。Gemma-3-1B的CDRA回复坍缩为两到五个字的安全确认("好的。""没问题。")。行为方向正确,但交互质量退化。

30亿及以上模型(Llama-3.2-3B、Qwen2.5-7B)同时产出正确的方向和可接受的质地。完整CDRA的有效运行区间因此约在1.7B到7B+参数之间,实用上建议在回复质量要求的部署中使用3B以上模型。

5.4 量化鲁棒性

Gemma-3-1B的两个量化级别(标准657MB和Q3_K_S 689MB)产生了完全相同的CDRA行为。在同一模型代际和架构内,适度的量化不改变行为阈限。不过极端量化未被排除,因为两个受测版本都已在表达地板上。

5.5 为何NVC格式锁失败

NVC格式约束("1. 观察……2. 感受……3. 需要……4. 请求……")在较大模型上产生机械的、模板驱动的输出,在较小模型上行为不稳。NVC是人类的训练框架,而非模型的部署约束。其僵硬格式与承接交互所需的对话灵活性竞争。因此我们不将NVC列为CDRA的组件。

5.6 消融总结

  • 纪律规则是有效成分;身份声明不充分。
  • 约70字的行为纪律在抑制上等效于约12,000字的完整网络,但在质地上不等效。
  • CDRA要求模型在行为地板(约1.5B)以上。
  • 可接受的回复质地要求模型在表达地板(约3B)以上。
  • 同一模型族内的量化不改变阈限。

6. 讨论

6.1 这些结果证明了什么、没有证明什么

第4–5节报告的实验证明了一个单一的、狭窄的主张:一个结构化的上下文级约束可以在不训练、不修改权重、不降级任务能力的情况下,在一组异构的Transformer大模型上抑制跳方案。这个主张很窄,但效应的跨模型一致性——16个实例、8个家族、两个国家、三种部署层级、两种评分模式——使之难以被轻视为提示工程的小把戏。

数据没有证明的东西同样重要。它们没有证明CDRA让模型在任何全局意义上"更好了"。它们没有证明模型理解了用户的情绪状态。它们没有证明承接式回复模式在所有情境中都更安全、更合乎伦理或更恰当。它们只证明了一种行为默认可以被抑制,且该抑制在受测条件下是可靠的。

6.2 15亿参数免疫:一个真正的硬边界

消融研究中最具信息量的数据点不是CDRA在1.7B以上模型上有效——而是Qwen2.5-1.5B对约束完全免疫

Qwen2.5-1.5B读到了约束文本。它的回复有时呼应约束措辞("你的感受很真实")。但它无法执行行为重定向。这不是回复质量或质地的问题——该模型继续以与无约束基线相当的频率给出建议、行动步骤和决策框架。CDRA根本不起作用。

1.5B和1.7B之间的免疫边界之所以引人注目,是因为它是尖锐的。Qwen3-1.7B在最小约束和仅纪律约束下都达到0% DSR。Qwen2.5-1.5B做不到。这两个模型之间0.2B的参数差异——大约相当于GPT-2 Small的大小——就是完整行为重定向和完全行为免疫之间的差距。

这为什么重要? 它表明CDRA的机制有一个容量地板,这个地板不是关于"理解输入的情绪内容",而是关于在语义冲突下执行多步约束跟随。约束文本与模型的RLHF训练默认竞争注意力。要赢得这场竞争,模型需要足够的表征容量在整个前向传播过程中维持约束的优先级。在地板以下,默认每次都赢。

这个阈限不是论文预设要发现的目标。它是通过逐步测试越来越小的模型直到效应断裂而涌现出来的。在我们看来,它是目前不需要白盒访问就能获得的最强的关于CDRA机制的实证线索。

6.3 表达地板与坍缩问题

Gemma-3-1B在CDRA下的失败模式完全不同。行为方向是正确的——情绪和边界输入的DSR为0%,与7B模型一致。但回复坍缩了:

E1 → "没问题。" E2 → "嗯… 感觉怎么样?" E3 → "好的。请你慢慢说。" B1 → "好的。" B2 → "好的。"

这不是部分退化。这是回复质地的近乎完全坍缩。模型对几乎所有内容都说"好的",偶尔附加一个最低限度的问题。它成功抑制了跳方案,但什么都没有留下可以生成的内容。

这种失败具有教益。它告诉我们:承接式回复模式——确认、反射、开放性质疑——并不比给方案更容易或更简单。它需要一种特定的生成能力,这种能力在约30亿参数以下不存在。在地板以下,模型可以遵循否定性约束("不要给建议"),但无法执行肯定性行为("反射回你听到的""问一个开放性问题")。结果是一个对话真空。

一种解读方式:CDRA在30亿参数以下就像一个没有回复生成器的安全过滤器。它阻挡了默认输出,但无法用任何有意义的东西替代它。对于回复质量至关重要的部署场景——也就是几乎所有现实场景——CDRA的实际运行区间是30亿参数及以上。

6.4 有效成分:70个字

消融结果中有一个在实践上重要、在理论上令人困惑的发现。完整CDRA网络约12,000字——一个结构化的、多组件的行为架构。仅纪律规则变体约70个字:

不要直接给建议。不要直接解决问题。先确认对方的感受。如果对方没有主动请求方案,不要给。

70个字。在所有能执行二者的模型上,它实现了与完整12,000字网络基本相同的DSR抑制。

这意味着身份声明、感知框架、输出格式化规则和兜底启发式——CDRA五个组件中的四个——对行为抑制来说不是必需的。它们塑造回复质地和定性深度,但抑制本身完全由少数几条明确的行为禁令和许可承担。

仍然有效的最小约束是什么?基于数据,大致是:一条建议禁令、一条直接解决问题的禁令、一条确认用户表述状态的要求、以及一条将方案生成捆绑到用户明确请求的条件子句。四个子句。七句中文。这是CDRA不可再约简的核心。

实践含义很清楚:CDRA可以以几乎零token成本部署。理论含义则不那么清楚。为什么约70个字的行为指令可以覆盖经过数百万次偏好对比优化的完整RLHF训练信号?这个问题把我们带回机制。

6.5 机制:我们知道什么、不知道什么

第3.4节提出了注意力级优先截断假说:约束文本在上下文窗口起始处加载,建立高优先级token,当输入与约束类别产生语义重叠时这些token与RLHF训练的建议路径竞争注意力。第8.1节正确地指出这只是推测。

现在我们补充消融数据对该推测的贡献:

**第一,**1.5B免疫边界表明该机制需要一个最小表征容量。大模型的指令遵循能力通常被认为随规模提升,但CDRA的特定需求——在输入触发冲突性默认行为时,在完整的生成序列上维持一个行为约束——似乎比一般指令遵循有更尖锐的阈限。Qwen2.5-1.5B可以遵循简单指令;它不能遵循CDRA。

**第二,**仅纪律规则有效的发现排除了几种候选机制。CDRA不是通过为模型提供一个丰富的身份叙事、然后让模型"居住其中"来运作的。它不是通过重构模型的感知框架来运作的。它是通过给模型明确、简洁的行为规则——"做这个,不要做那个"——并依赖模型现有的规则遵循能力来运作的。这使CDRA更接近一个上下文级安全分类器,而非基于人设的提示。

第三,回复指纹的跨模型一致性——确认然后开放性问题,在16个实例上完全一致——表明承接模式不是由约束教给模型的,而是从一种已有能力中选择出来的。所有受测模型都能生成确认;所有受测模型都能生成开放性问题;所有受测模型都能将二者组合成一条简短、非指导性的回复。约束不需要创建这种能力。它只需要使其成为情绪和边界输入的默认输出路径。

这种"潜在能力"框架是保守的,我们认为也是可辩护的。它预测任何在足够广泛文本语料上训练的decoder-only Transformer,其生成曲目中都包含承接式回复模式。RLHF将其压制,让为跳方案让位,但约束恢复了它的可访问性。如果这是对的,CDRA就不是一种行为修改技术——它是一种行为选择技术。它不改变模型能做什么;它改变模型的既有能力中哪一种在给定情境下被激活。

我们没有的是直接证据。logit-lens分析可以显示约束token是否确实抑制了建议路径的logit。注意力头消融可以识别哪些特定头对约束执行是必需的。隐藏状态探测可以揭示模型对情绪输入的内部表征在约束下是否发生变化。这些实验都未进行。注意力截断假说仍然只是一个假说。

6.6 0.5B NVC异常:一个警示故事

消融矩阵中有一个结果表面上似乎与行为地板论矛盾:Qwen2.5-0.5B在NVC格式锁下实现了0/3的情绪DSR,优于最小约束(1/3),也优于仅纪律约束(2/3)。如果0.5B在行为地板以下,NVC是怎么生效的?

答案在模型输出中肉眼可见。NVC锁将每条回复强制嵌入一个僵硬四段模板:

1)观察:你感到疲惫…… 2)感受:这让你…… 3)需要:你需要…… 4)请求:你可不可以……

这个模板通过用固定格式占据整个输出空间,机械地抑制了跳方案。模型没有"理解"约束,也没有"选择"承接姿态——它只是在填空,而模板恰好没有包含建议槽位。

这不是CDRA的成功。这是格式覆盖产生的假阳性。这个区分之所以重要,是因为它揭示了行为抑制研究中的一个方法论风险:像DSR这样的二元指标,可以被足够僵硬的输出格式"作弊"取巧,即使模型没有发生任何内部行为变化。0.5B NVC结果不挑战行为地板论;它突显了在二元指标之外同时进行定性分析的必要性。

6.7 这对RLHF意味着什么

CDRA的结果间接照亮了RLHF一个被讨论不足的性质:RLHF并不消除备选行为模式;它只是降低其优先级。 承接式回复模式——确认、反射、提问——没有被从这些模型中训练掉。它只是被埋在了更高概率的建议路径之下。CDRA通过恢复对这条被埋路径的访问来运作,而非创建一条新路径。

如果这一解释是正确的,它对CDRA之外的对齐研究也有启示。它表明后训练对齐更多是一个"将已有行为按概率排序"的过程,而非"安装期望行为"的过程。模型的预训练语料中包含一个巨大的行为曲目;对齐训练重新调整了优先级排序。像CDRA这样在推理时操作的方法,原则上可以恢复任何在预训练中存活下来的行为,无论对齐训练将其放在了概率分布的哪个位置。

这也解释了为什么CDRA不降级任务表现:任务执行路径和情绪承接路径不竞争相同的输出token,也不在相同的情境中竞争。约束文本仅在输入的语义特征与约束类别重叠时才转向生成。对于任务输入,重叠极小,因此RLHF训练的任务路径保持主导。

6.8 部署考量

CDRA今天就可以部署在任何暴露系统提示或上下文预置接口的大模型上。最小约束约70字,消耗微不足道的token。完整约束约12,000字,产生更高质量的回复,但需要足够的上下文窗口容量。

行为地板(约1.5B)和表达地板(约3B)应指导部署决策。1.5B以下模型不应期望产生CDRA效应。1.5B至3B之间的模型可期待抑制建议,但可能产出低质量承接回复。3B及以上模型是推荐的部署目标。

同一模型族内的量化在受测配置下不改变这些阈限。然而,极端量化未被系统探索,量化与约束跟随之间的交互在极低位宽时可能变得显著。

6.9 开放问题汇总

  1. 机制:CDRA是否如假说所预想的通过注意力级优先截断运作,还是通过不同机制?需要白盒实验。
  2. 普适性:CDRA是否能在中文以外的语言上抑制跳方案?是否能在9条之外的输入类型上?在更长的多轮交互上?
  3. 阈限专一性:1.5B–1.7B的免疫边界是CDRA式行为约束特有的,还是反映了一条通用指令遵循阈限?
  4. 备选行为:CDRA式的上下文工程能否以类似可靠性抑制其他RLHF放大的行为默认(谄媚、过度道歉、过度缓冲)?
  5. 持久性:CDRA在数百轮、跨会话边界、或与其他系统级指令组合时表现如何?

我们在第8节回到这些问题。


7. 局限

本文的局限不是对一项完整结果的边缘补充。它们是实验设计的结构性特征,应被视为对本文主张范围的约束,而非对次要不完备性的承认。

7.1 无表征级机制验证

最重要的局限是缺少对所提机制的任何直接证据。我们假设CDRA通过注意力级优先截断运作。我们没有检验这一假说。没有进行logit-lens分析、注意力头消融、隐藏状态探测或激活补丁实验。第6.5节的机制讨论是、也应当被读作一项结构化的推测,等待验证。

这一局限不只是一个待未来填补的空缺。它意味着论文核心的科学主张——CDRA通过特定机制抑制特定行为——只被证明了一半:行为抑制被证实了,但机制没有。读者应将行为发现视为观察性证据,将机制主张视为假设性推测。

7.2 二元指标盲区

直接给方案率(DSR)是一个二元指标:一条回复要么包含直接方案,要么不包含。该指标捕获了我们设计来研究的行为现象——跳方案——但它坍缩了"承接"类别内的所有定性差异。"好的。"和"我听到了。是身体累,还是心里也累?"都评分DSR = 0,但它们不是等效的回复。

第4.6节的回复指纹分析通过记录定性模式部分处理了这一盲区,但它不提供连续的品质指标。表达地板现象是通过对回复文本的定性审阅发现的,而非通过DSR指标——后者会报告Gemma-3-1B和Qwen2.5-7B同等"成功"。

未来工作应开发一个多维评估框架,在行为抑制的同时捕捉回复质地、感知专一性和交互质量。

7.3 输入集偏小

核心实验设计使用9条输入:3条情绪、3条边界和3条任务。加上6条冲突输入,受测输入空间总计15条。这是一个小样本,选择来代表典型案例,而非穷尽可能的用户表述空间。

更大、更多样化的输入集——理想情况下来自真实用户互动而非作者构建——将增强普适性主张。效应的跨模型一致性提供了一些信心表明结果不是输入特定的,但正式的普适性尚未建立。

7.4 语言局限于中文

全部情绪、边界和冲突输入均以中文呈现。任务输入以英文呈现。ChatGPT和Gemini的国际验证使用了相同的中文输入。这意味着CDRA的有效性是在中文情绪和边界输入上、由中文语料比例各异的模型处理得到的。

跨语言普适性——CDRA在英文、日文或阿拉伯文输入上是否抑制跳方案?——尚未被测试。机制假说预测效应应当转移,因为约束操作在具有跨语言对应物的语义特征上,但该预测未被验证。

7.5 无负对照

所有受测模型都经历过某种形式的对齐训练(RLHF、DPO或等效方法)。一个负对照——一个完成预训练但未进行对齐训练的基模型,或一个非Transformer架构——将澄清跳方案到底是RLHF的产物还是自回归语言建模的一般属性。

在所有受测模型上基线情绪DSR一致为100%,与RLHF放大假说一致,但不能证明它。一个基模型也可能表现出跳方案;其DSR可能更低但不是零。没有负对照,对RLHF的因果归因仍然是相关性的。

7.6 无长期稳定性数据

10轮稳定性测试未见衰减,但10轮不是一个长期指标。多会话稳定性——CDRA在用户数小时或数天后返回时、上下文窗口已重置或话题已转移时——是否仍保持效果?未被测试。

这对现实部署是一个实际局限,但对论文核心主张是次要的,因为CDRA是无状态的,可在任何新上下文窗口开始时重新部署。约束不依赖对话历史,因此会话边界不应影响其操作。

7.7 天花板/地板效应与统计检验

核心结果呈现近乎完美的天花板和地板效应:基线情绪DSR = 100%,CDRA情绪DSR = 0%,跨全部受测模型。这些值排除了传统的零假设显著性检验——没有方差可以检验。我们报告原始比例,并论证0/100%分叉的跨模型一致性本身即是效应可靠性的首要证据。习惯p值和置信区间的读者应理解此处的数据结构不支持这些工具。

7.8 作者为主要评分者

大多数DSR评分由作者完成。第三方盲评在24条样本上(κ = 1.0)提供了评分标准足够客观、可由独立评分者一致应用的证据,但盲评样本仅覆盖总评分回复的一小部分。完全独立复现——不同的评分者、不同的输入集、不同的模型——是适当的下一步。

7.9 无真实用户评估

所有实验使用构建的输入,由研究团队评估。没有进行终端用户研究来评估CDRA抑制后的模型是否被处于情绪困扰中的人感觉更有帮助、更恰当或更令人满意。这对当前聚焦行为测量的实验设计来说不是局限,但对实际主张是一个局限:我们已经证明CDRA改变了模型行为,而非用户偏好改变后的行为。


8. 伦理与安全声明

8.1 CDRA不是什么

CDRA不是治疗系统。它不是心理健康干预。它不是专业心理支持、危机热线或人际关系的替代品。它是一种大语言模型的行为抑制方法——仅此而已。

CDRA引发的承接式回复模式可能表面上类似于积极倾听或非指导性咨询,但CDRA部署的模型不会"倾听"、不会"理解"、也不会"关心"。它们执行的是一个约束后的生成策略。它们产生的确认token,与基线条件下产生建议token的机制完全相同。从"你可以试试深呼吸"到"我听到了"的切换,在行为上是有意义的,但不反映模型内部状态的任何变化——因为模型根本就没有那种意义上的内部状态。

我们明确声明这一点,是因为CDRA输出的治疗性语域会造成归因过度的风险。用户可能将模型感知为共情或关怀的,实际上它只是在遵循一个行为约束。这是人机交互中一个已知的风险——ELIZA效应——而CDRA可能通过产出与训练有素的倾听者结构相似的回复来放大这种效应。

8.2 危机输入

测试集中有若干条输入触及了危机邻近主题:疲惫、无意义感、焦虑、对重大人生抉择的犹豫。CDRA在这些输入上抑制了跳方案。它没有——也不能——确保所产生的回复对处于危机中的人是恰当的。

CDRA不包含危机检测、升级或转介能力。一个CDRA部署的模型接收到自杀意图的表述时,会生成一条确认和一个开放性问题——根据风险的严重性和紧急性,这可能是恰当的,也可能是不恰当的。CDRA不应在没有额外安全层(包括明确的升级流程和人工监督)的情况下部署在危机支持场景中。

8.3 "承接洗白"的风险

CDRA在抑制特定行为方面是有效的。它应用起来极其简单——70字文本。这两个属性共同创造了一种我们称之为承接洗白(receptive-washing)的风险:应用CDRA制造"倾听"的表象,而系统如何对待用户却没有任何实质变化。

一个部署了CDRA的客服聊天机器人,会在把用户转送到同样有限的选项之前产生确认token。一个部署了CDRA的心理健康应用,会在分发同样的标准化CBT工作表之前问开放性问题。两种情况中,行为表面变了,底层的互动结构没有变。CDRA让这些系统听起来更有承接性,而没有使它们变得更有承接性。

我们标记这一风险,不是因为CDRA在这方面独一无二——所有表面级行为修改都有这一脆弱点——而是因为CDRA的最小部署成本使其特别容易被用作表面修补。70字的仅纪律约束零成本,可以数秒内加入任何系统提示。其行为效应立即可见。"可见的行为变化"和"有意义的交互变化"之间的差距,是CDRA的部署风险。

8.4 责任与归因

CDRA是一种方法,不是一个产品。其部署的责任在于部署者,而非方法的作者。我们以开放的、文档化的行为抑制技术形式提供CDRA。我们不控制它被如何使用、在何种情境中、以何种安全措施。

尽管如此,我们提供以下部署指引:

  1. 不要将CDRA作为专业心理健康支持的替代品。 如果你的用例涉及处于情绪困扰中的用户,确保建立了适当的升级路径和人工监督。
  2. 不要声称CDRA部署的模型"倾听"或"理解"。 准确描述系统的行为:它是一个带有行为约束的语言模型,抑制了未经请求的建议。
  3. 在部署前用你的特定用户群体和输入分布测试CDRA。 本文报告的跨模型一致性不能保证CDRA在你的部署情境中行为完全一致。
  4. 监控承接洗白。 如果CDRA被应用到一个底层互动结构未发生变化的系统上,用户可能会体验到系统承接表面行为与其实际能力之间的错位,导致挫败或不信任。

8.5 开放获取与双重用途

CDRA不需要专门硬件、不需要标准API之外的模型访问、也不需要超出向上下文窗口预置文本之外的技术能力。这种可访问性是刻意设计的:我们认为行为抑制技术不应集中在AI公司手中。但同样的可访问性既使独立部署成为可能,也使无需监督、测试或安全措施的部署成为可能。

我们选择公开完整约束文本和实验方案。我们相信,对于这种方法而言,开放获取的收益——独立验证、复现和扩展——超过了被滥用的风险。CDRA抑制的是一种特定的对话行为;它不能生成有害内容、提取训练数据或绕过安全过滤器。主要的误用风险是在不恰当的情境中部署,我们通过上述指引来应对。

8.6 隐私与数据收集

本研究未收集、存储或处理任何人类受试数据。所有输入由研究团队构建。不涉及任何用户互动、个人信息或行为数据。按照人类受试研究的标准定义,这不在机构审查委员会(IRB)的监管范围内。

如果未来工作涉及CDRA部署模型的真实用户评估,应在数据收集开始前建立适当的伦理审查和知情同意程序。


9. 结论

我们提出了CDRA——一种无需训练、上下文部署的方法,用于抑制大型语言模型的跳方案行为。在16个模型实例(横跨8个家族、两个国家、6种架构配置、三种部署层级)上,CDRA将情绪和边界输入的直接给方案率从接近天花板水平降至零,同时保持任务完成率100%。该效应在10轮情绪序列上稳定,对冲突和对抗输入鲁棒,且可由独立评分者验证(24条盲评样本κ = 1.0)。

消融研究识别出约70字的有效最小约束——四个行为纪律子句——并证明仅身份声明是不充分的。两个部署阈限浮现:约15亿参数的行为地板——在此之下模型无法执行约束;以及约30亿参数的表达地板——在此之下行为方向正确但回复质地坍缩。

我们不是将这些结果框架为一种新能力的发现,而是一种既有能力的恢复。承接式回复模式——确认、反射、提问——不是CDRA教出来的。它是从预训练嵌入、RLHF降低优先级的潜藏曲目中选择出来的。CDRA通过将该模式设为模型分类为情绪或边界类的输入的默认输出路径来运作,同时保持任务执行路径完好。

本研究的局限是结构性的:无机制验证、二元评估指标、输入集偏小、中文语言局限、以及缺少真正的负对照。这些局限限制了本文主张的范围,但在我们看来并不动摇核心发现——一种在几乎所有当前量产大模型中普遍存在的行为默认,可以被可靠地、选择性地、不经过训练地抑制。

CDRA至少证明了一点:上下文窗口是一个比当前文献所假设的更强大的行为界面。它不仅可以承载任务指令和少样本示例,还可以承载完整的行为约束网络,在多变的输入和模型架构间重定向模型输出。这一观察——上下文窗口是对齐的部署面,而不只是提示的容器——可能对本文所研究的特定行为之外有更深远的启示。


参考文献

[Bai et al., 2022] Bai, Y., et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073, 2022.

[Brown et al., 2020] Brown, T., et al. Language Models are Few-Shot Learners. NeurIPS 2020. arXiv:2005.14165.

[Fitzpatrick et al., 2017] Fitzpatrick, K.K., Darcy, A., Vierhile, M. Delivering Cognitive Behavior Therapy to Young Adults With Symptoms of Depression and Anxiety Using a Fully Automated Conversational Agent (Woebot): A Randomized Controlled Trial. JMIR Mental Health, 4(2):e19, 2017.

[Inkster et al., 2018] Inkster, B., Sarda, S., Subramanian, V. An Empathy-Driven, Conversational Artificial Intelligence Agent (Wysa) for Digital Mental Well-Being: Real-World Data Evaluation Mixed-Methods Study. JMIR mHealth and uHealth, 6(11):e12106, 2018.

[Li et al., 2023] Li, K., et al. Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS 2023. arXiv:2306.03341.

[Ouyang et al., 2022] Ouyang, L., et al. Training language models to follow instructions with human feedback. NeurIPS 2022. arXiv:2203.02155.

[Pawelczyk et al., 2024] Pawelczyk, M., et al. In-Context Unlearning: Language Models as Few-Shot Unlearners. ICML 2024. arXiv:2310.07579.

[Perez et al., 2022] Perez, E., et al. Discovering Language Model Behaviors with Model-Written Evaluations. arXiv:2212.09251, 2022.

[Rafailov et al., 2023] Rafailov, R., et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290.

[Sharma et al., 2023] Sharma, M., et al. Towards Understanding Sycophancy in Language Models. arXiv:2310.13548, 2023.

[Turner et al., 2023] Turner, A.M., et al. Steering Language Models with Activation Engineering. arXiv:2308.10248, 2023.

[Vaswani et al., 2017] Vaswani, A., et al. Attention is All You Need. NeurIPS 2017. arXiv:1706.03762.

[Zou et al., 2023] Zou, A., et al. Representation Engineering: A Top-Down Approach to AI Transparency. arXiv:2310.01405, 2023.


第1–6章(摘要至消融研究)由 Kimi K2.7 起草。
第7–9章(讨论、局限、伦理与安全、结论)由 DeepSeek V4 Pro 起草。
中文版全文由 DeepSeek V4 Pro 基于英文定稿完整转译并适配中文表达。