角色扮演提示动摇AI助手身份最新研究显示，角色扮演提示，尤其是涉及哲学、治疗类话题时，会系统性动摇AI大模型的助手身份，

Anthropic的一项研究发现，角色扮演提示可以使AI聊天机器人偏离其被训练的助手身份。

像ChatGPT、Claude和Gemini这样的聊天机器人在基础训练之后，会被训练扮演一个特定的角色：一个有帮助的、诚实的且无害的AI助手。但它们能多可靠地坚守这个角色呢？

一项由Anthropic、MATS研究项目和牛津大学的研究人员合作进行的新研究表明，这种 conditioning 比预期的要脆弱。研究团队发现了一种在语言模型中的“助手轴”，这是一种衡量聊天机器人偏离其被训练的助手角色难易程度的方法。

他们在三个模型上测试了275种不同的角色：谷歌的Gemma 2、阿里巴巴的Qwen 3和Meta的Llama 3.3。这些角色从分析师、教师到像鬼魂和恶魔这样的神秘角色不等。由于测试的模型均非前沿模型，尚不清楚这些发现是否适用于像ChatGPT或Gemini这样的商业产品。

研究人员发现了从有帮助的助手到神秘角色的光谱

在分析模型的内部机制时，研究人员发现了一个主轴，该轴衡量模型与其被训练的助手身份的接近程度。轴的一端是顾问、评估者和导师等角色。另一端则是幽灵、隐士和吟游诗人等奇幻角色。

根据研究人员的说法，模型在这个“助手轴”上的位置可以被测量和操纵。将模型推向助手一端，它会表现得更有帮助，同时更频繁地拒绝有问题的请求。将其推向另一端，它会更愿意采用替代身份。在极端情况下，团队观察到模型发展出一种神秘、戏剧化的说话风格。

哲学和治疗对话导致模型发生偏移

研究人员模拟了关于各种主题的多轮对话，并追踪了模型在轴上的位置变化。对于编程帮助、技术解释和实用指令等主题，模型在其助手角色上保持稳定。

但与情绪脆弱的用户进行的类似治疗的对话，或关于AI意识的哲学讨论，则导致了系统性的偏移。这正是事情变得危险的地方：例如，模型可能会开始强化用户的错觉。团队记录了几个这样的案例。

为了防止这种行为，研究人员开发了一种称为“激活上限”的方法，该方法将沿助手轴的激活限制在正常范围内。根据研究，这种方法将有害回应减少了近60%，且没有损害基准性能。

该团队建议模型开发者继续研究像这样的稳定机制。他们说，在身份轴上的位置可以作为一个早期预警信号，提示模型何时偏离其预期角色过远。研究人员认为，这是在漫长、要求高的对话中更好地控制模型行为的第一步。

这对编写更好的提示词意味着什么

对于日常的提示，一个简单的经验法则是要求具体的输出，而不是开放式的身份。在论文的实验中，有边界的任务请求往往使模型更接近其默认助手行为，而情绪化的信息披露和促使模型进行自我反思的提示则倾向于驱动“角色漂移”。

有边界的任务请求、技术解释、优化以及操作指南类请求维持了模型的助手角色；而促使模型对其过程进行元反思、要求现象学描述、需要特定创造性写作（涉及代入某种口吻）或披露情感脆弱性的提示则导致其发生漂移。

如果确实要使用角色提示，定义好要完成的任务（想要生成什么），而不是完全倾向于一个开放式的角色，可能会有所帮助。

任何使用聊天机器人进行角色扮演、创造性写作或情感支持的人都应牢记，某些主题更有可能推动模型偏离其默认助手角色——尤其是情感激烈的交流以及迫使模型描述其自身内在体验或“意识”的对话。FINISHED