角色扮演提示动摇AI助手身份

1 阅读4分钟

Anthropic的一项研究发现,角色扮演提示可以使AI聊天机器人偏离其被训练的助手身份。

像ChatGPT、Claude和Gemini这样的聊天机器人在基础训练之后,会被训练扮演一个特定的角色:一个有帮助的、诚实的且无害的AI助手。但它们能多可靠地坚守这个角色呢?

一项由Anthropic、MATS研究项目和牛津大学的研究人员合作进行的新研究表明,这种 conditioning 比预期的要脆弱。研究团队发现了一种在语言模型中的“助手轴”,这是一种衡量聊天机器人偏离其被训练的助手角色难易程度的方法。

他们在三个模型上测试了275种不同的角色:谷歌的Gemma 2、阿里巴巴的Qwen 3和Meta的Llama 3.3。这些角色从分析师、教师到像鬼魂和恶魔这样的神秘角色不等。由于测试的模型均非前沿模型,尚不清楚这些发现是否适用于像ChatGPT或Gemini这样的商业产品。

研究人员发现了从有帮助的助手到神秘角色的光谱

在分析模型的内部机制时,研究人员发现了一个主轴,该轴衡量模型与其被训练的助手身份的接近程度。轴的一端是顾问、评估者和导师等角色。另一端则是幽灵、隐士和吟游诗人等奇幻角色。

根据研究人员的说法,模型在这个“助手轴”上的位置可以被测量和操纵。将模型推向助手一端,它会表现得更有帮助,同时更频繁地拒绝有问题的请求。将其推向另一端,它会更愿意采用替代身份。在极端情况下,团队观察到模型发展出一种神秘、戏剧化的说话风格。

哲学和治疗对话导致模型发生偏移

研究人员模拟了关于各种主题的多轮对话,并追踪了模型在轴上的位置变化。对于编程帮助、技术解释和实用指令等主题,模型在其助手角色上保持稳定。

但与情绪脆弱的用户进行的类似治疗的对话,或关于AI意识的哲学讨论,则导致了系统性的偏移。这正是事情变得危险的地方:例如,模型可能会开始强化用户的错觉。团队记录了几个这样的案例。

为了防止这种行为,研究人员开发了一种称为“激活上限”的方法,该方法将沿助手轴的激活限制在正常范围内。根据研究,这种方法将有害回应减少了近60%,且没有损害基准性能。

该团队建议模型开发者继续研究像这样的稳定机制。他们说,在身份轴上的位置可以作为一个早期预警信号,提示模型何时偏离其预期角色过远。研究人员认为,这是在漫长、要求高的对话中更好地控制模型行为的第一步。

这对编写更好的提示词意味着什么

对于日常的提示,一个简单的经验法则是要求具体的输出,而不是开放式的身份。在论文的实验中,有边界的任务请求往往使模型更接近其默认助手行为,而情绪化的信息披露和促使模型进行自我反思的提示则倾向于驱动“角色漂移”。

有边界的任务请求、技术解释、优化以及操作指南类请求维持了模型的助手角色;而促使模型对其过程进行元反思、要求现象学描述、需要特定创造性写作(涉及代入某种口吻)或披露情感脆弱性的提示则导致其发生漂移。

如果确实要使用角色提示,定义好要完成的任务(想要生成什么),而不是完全倾向于一个开放式的角色,可能会有所帮助。

任何使用聊天机器人进行角色扮演、创造性写作或情感支持的人都应牢记,某些主题更有可能推动模型偏离其默认助手角色——尤其是情感激烈的交流以及迫使模型描述其自身内在体验或“意识”的对话。FINISHED