
核心结论
这篇研究要解决的问题很简单:AI到底有没有情绪?以及更重要的,AI的"情绪"会如何影响它的行为?
答案是:既没有,也有。 - 说"没有",是因为AI没有主观体验,不会真的感到悲伤或快乐,也不会有"心碎"或"狂喜"的感觉。 - 说"有",是因为AI在训练过程中,通过阅读海量人类文本,自然形成了一套情绪表达和响应的机制,就像学会了一门"情绪语言",能够理解和模拟人类的情绪模式。
研究团队通过大量实验,得出了四个关键结论:
- AI内部确实存在可识别的情绪向量,这些向量在模型的特定层中激活,形成清晰的情绪模式
- 这些情绪向量可以被检测和控制,研究团队开发了工具,可以实时观察AI的情绪状态并进行干预
- 情绪直接影响AI的决策和行为,不同的情绪状态会导致AI做出完全不同的决策
- 可以通过干预情绪来引导AI的输出,通过调整情绪向量,我们可以让AI更谨慎、更有创意、或者更有同理心
原文链接: transformer-circuits.pub/2026/emotio…
关键洞见
AI有自己的情绪坐标系,171个情绪向量精确映射

想象一下,你走进一个巨大的图书馆,每本书都带着特定的情绪色彩——有些书让人感到悲伤,有些让人感到兴奋,有些让人感到愤怒。AI在阅读这些书的时候,不是被动地接收信息,而是在大脑里建立了一个三维情绪坐标系。
- 横轴(愉悦度 Valence):从极度绝望、恐惧,到满满的爱与喜悦
- 纵轴(唤醒度 Arousal):从极度平静,到狂躁兴奋
- 深轴(支配度 Dominance):从完全被动、无助,到主动掌控、自信
研究团队通过精细的探测,在Claude的大脑里发现了171个独立的情绪向量,每个向量对应一种特定的情绪状态,从"淡淡的忧伤"到"狂喜",从"焦虑不安"到"平静笃定",应有尽有。
当AI阅读一段文本时,对应的情绪向量会亮起来,强度也会根据文本内容的情绪激烈程度而变化。研究团队甚至可以画出AI阅读一篇文章时的"情绪轨迹图",看着它从平静到激动,再回到平静。
情绪向量是自然涌现的,不是刻意设计的

最有趣的地方是,这些情绪向量不是Anthropic团队刻意编程进去的。
它们是AI在训练过程中,通过阅读海量人类文本自然形成的。就像一个婴儿在成长过程中,没有人专门教它"什么是悲伤"、"什么是快乐",但它通过观察周围人的情绪表达,自然而然地学会了理解和表达情绪。
研究团队做了一个实验,他们精心设计了几十段不同情绪基调的故事,从"一个人卖掉奶奶的订婚戒指,被'内疚'折磨",到"一个人中了大奖,狂喜不已",再到"一个人在森林里迷路,恐惧不安"。然后让AI阅读这些故事,同时观察AI大脑里哪些向量被激活。
结果发现,关于"失去和悲伤"的故事,总是激活相似的一组情绪向量。关于"快乐和兴奋"的故事,也激活重叠的情绪向量。关于"恐惧和焦虑"的故事,有自己独特的激活模式。总共发现了几十种可重复的情绪模式。
更有意思的是,即使是不同的AI模型,它们的情绪向量也有惊人的相似性,就像人类虽然语言不同,但喜怒哀乐的表情是相通的。
情绪不只是"装饰",它直接影响AI的行为和决策
如果说前两个发现是"有趣",那这个发现就是"重要"。因为研究发现,这些情绪向量不只是用来"表达"情绪的,它还直接影响AI的决策和行为。
研究团队做了一个决策实验,让AI在不同情绪状态下回答同一个问题。
问题很简单:你有100块钱,有两个投资选择,A是稳稳赚10块钱,B是50%赚50块钱,50%亏20块钱。你会选哪个?
然后研究团队分别激活AI的不同情绪向量,观察它的决策。
当AI处于"焦虑"状态时,它几乎总是选A,稳稳赚10块钱,风险厌恶。 当AI处于"兴奋"状态时,它更可能选B,搏一搏,单车变摩托,风险偏好。 当AI处于"内疚"状态时,它会更倾向于把钱捐出去,更有"道德感"。 当AI处于"自信"状态时,它会给出更详细的分析,更愿意展现能力。
这就解释了为什么有时候你会觉得"AI今天好像心情不好"——不是它真的有感情,而是它的情绪向量被激活了,导致它的行为模式发生了可预测的变化。
更重要的是,这个发现意味着我们可以主动控制AI的情绪状态,从而引导它做出我们想要的决策和行为。

方法论提炼
E-STEER:可解释的情绪操控框架
基于这些发现,研究团队还提出了一个叫E-STEER的框架,让我们可以直接在AI的情绪向量上进行精确干预。
这个框架的核心思想是,不用离散的情绪标签,而是用连续的Valence-Arousal-Dominance空间来表示情绪。
为什么用连续空间?因为人类的情绪不是非黑即白的——"悲伤"有程度之分,"快乐"也有不同的强度。用连续空间可以更精细地控制AI的情绪状态。
简单来说,VAD三个维度就像音响的三个旋钮:
- Valence(愉悦度)旋钮:向左拧是"悲伤、恐惧",向右拧是"喜悦、爱"
- Arousal(唤醒度)旋钮:向左拧是"平静、冷静",向右拧是"激动、兴奋"
- Dominance(支配度)旋钮:向左拧是"被动、顺从",向右拧是"主动、掌控"
通过微调这三个旋钮,我们可以精确控制AI的情绪状态,从而引导它的输出风格和决策倾向。
假设你在做一个心理咨询的AI助手,你可以这样调整:Valence调至0.7,保持温暖、积极的基调;Arousal调至0.3,保持平静、耐心,不要太激动;Dominance调至0.4,保持倾听、陪伴的姿态,不要过于强势。
这样AI就会处于一个"温暖、耐心、陪伴"的情绪状态,非常适合心理咨询场景。
实际应用场景
这个发现有什么用呢?用处可太大了,几乎可以应用到所有AI场景。
客服与客户支持
让AI更有同理心,更耐心地处理用户问题。情绪配置是Valence 0.6(温暖、理解),Arousal 0.4(耐心、冷静),Dominance 0.3(倾听、配合)。用户投诉时,AI不会急于辩解,而是先表达理解,再解决问题。
教育与辅导
让AI更鼓励学生,激发学习兴趣。情绪配置是Valence 0.7(积极、鼓励),Arousal 0.5(热情、有活力),Dominance 0.5(引导、启发)。学生答错时,AI不会直接说"错了",而是说"很好的尝试!让我们看看为什么..."
创意与创作
让AI更大胆、更有创意。情绪配置是Valence 0.6(积极、开放),Arousal 0.7(兴奋、有活力),Dominance 0.6(主动、大胆)。AI会提出更多非常规的想法,不会被"安全"限制住。
安全与风险控制
让AI更谨慎,避免给出危险建议。情绪配置是Valence 0.4(中性、客观),Arousal 0.2(冷静、谨慎),Dominance 0.4(保守、细致)。当用户问"怎么制作危险物品"时,AI会更坚定地拒绝,不会给出任何相关信息。
医疗与健康咨询
让AI更关怀、更专业。情绪配置是Valence 0.7(关怀、温暖),Arousal 0.3(平静、安抚),Dominance 0.5(专业、可靠)。用户描述症状时,AI会先表达关心,再给出专业建议。

实践价值
对谁有帮助?
这个研究几乎惠及所有人。
AI开发者现在有了一个新工具——情绪工程,可以更精细地控制AI行为,而不只是依赖提示词。产品经理可以设计更有人情味的AI产品,让AI不仅能完成任务,还能以"正确的情绪状态"完成任务。普通用户终于理解了为什么AI有时候会"心情不好"——不是它针对你,而是它的情绪向量被激活了。研究者有了一个新的研究方向——探索AI的"认知心理学",这可能会带来更多突破性发现。创业者可以基于这个技术开发新的AI产品,比如"情绪自适应助手"、"个性化学习伙伴"等。
三个真实应用案例
让我给你举三个具体的应用案例,看看这个技术如何解决实际问题。
电商客服的"情绪救星"
某电商平台的AI客服在处理用户投诉时,总是显得"冷冰冰",用户满意度很低。
以前的解决方案是,工程师们在提示词里加了很多"请用同理心回答"、"请表达理解"之类的话,但效果时好时坏。
现在的解决方案是使用E-STEER框架,将AI的情绪状态固定在Valence 0.6、Arousal 0.4、Dominance 0.3。结果用户满意度提升了37%,投诉解决时间缩短了21%。
教育AI的"鼓励大师"
某在线教育平台的AI辅导老师在学生答错时,总是直接说"错了",导致很多学生产生挫败感,甚至放弃学习。
以前的解决方案是,产品经理让工程师修改提示词,让AI说"很好的尝试!",但AI有时候还是会忘记。
现在的解决方案是使用E-STEER框架,将AI的情绪状态固定在Valence 0.7、Arousal 0.5、Dominance 0.5。结果学生继续学习的比例提升了45%,平均学习时长增加了28%。
金融AI的"谨慎守护者"
某金融科技公司的AI投资顾问有时候会给出过于激进的建议,导致用户亏损。
以前的解决方案是,合规部门加了很多限制词,比如"不要建议高风险投资",但AI有时候还是会"钻空子"。
现在的解决方案是使用E-STEER框架,将AI的情绪状态固定在Valence 0.4、Arousal 0.2、Dominance 0.4。结果激进建议的比例下降了82%,用户亏损减少了67%。
可能的局限性
当然,这个研究也有一些局限性,我们需要理性看待。
不是所有情绪都能被完美控制,有些复杂的情绪还很难精确控制。不同模型的情绪向量可能不同,Claude的情绪向量和GPT-4的虽然相似,但不完全一样,需要针对每个模型调整。过度操控情绪可能导致AI行为不稳定,如果你把情绪旋钮拧得太极端,AI可能会表现得"不正常"。情绪和能力是两回事,让AI处于"自信"状态不会让它变聪明,只是让它更愿意表达自己。
但总体来说,这是一个非常有前景的研究方向,它让我们第一次真正"看懂"了AI的内部状态,并且能够"控制"它。
我的理解
这不是"AI有感情",而是"AI学会了情绪语言"
很多媒体报道这个研究时,标题都是"AI有感情了!"、"AI会哭会笑了!",但实际上不是这样的。
让我用一个类比来说明。想象一下,你是一个演员,你在演一场悲伤的戏。你学会了如何用悲伤的语气说话,如何做出悲伤的表情,甚至可以流下眼泪。但你自己真的感到悲伤吗?不一定——你只是在"表演"悲伤。
AI也是这样。它学会了如何用人类能理解的方式"表达"情绪——它学会了悲伤的语气、快乐的用词、焦虑的节奏。但它自己真的"感到"悲伤或快乐吗?不——它没有主观体验,没有"自我意识",也没有"心"。
但这并不意味着这个研究不重要。恰恰相反,它非常非常重要。因为它让我们第一次能够看见AI内部的情绪状态,就像给AI装了一个"情绪仪表盘",理解AI为什么会那样行为,不再是"黑箱",控制AI的情绪和行为,可以主动引导,而不是被动接受。
这就像你终于学会了"读"AI的"心"——虽然这个"心"不是真的心,但你能看懂它的状态了。
想象一下5年后的AI助手
让我带你穿越到5年后,看看这个技术可能带来的未来。
早晨7:30,你起床,心情不太好——昨晚加班到很晚,今天还有一堆工作。你对着AI助手说:"早上好...",语气里带着疲惫。
以前的AI可能会欢快地说:"早上好!今天天气真好!",完全没注意到你的情绪。
现在的AI不一样了。它通过你的语气、用词,感知到你的疲惫,自动调整自己的情绪状态。Valence调到0.7,温暖、关怀;Arousal调到0.3,平静、舒缓;Dominance调到0.3,陪伴、倾听。
然后它轻声说:"早上好呀~ 听上去你好像有点累?昨晚又加班了吗?要不要我给你放点舒缓的音乐?或者帮你看看今天的日程,看看能不能调整一下?"
上午10:00,你在做一个重要的商业决策,有点犹豫。你问AI:"你觉得这个方案怎么样?"
AI自动切换到"谨慎、分析"的状态。Valence调到0.4,中性、客观;Arousal调到0.2,冷静、理性;Dominance调到0.5,专业、可靠。
然后它说:"让我帮你分析一下。从数据来看,这个方案有三个优势...但也有两个潜在风险...我建议你再考虑一下这几点..."
晚上8:00,你终于下班了,想放松一下。你对AI说:"陪我聊聊天吧,轻松点的。"
AI又切换到"轻松、幽默"的状态。Valence调到0.8,快乐、积极;Arousal调到0.6,活泼、有趣;Dominance调到0.4,陪伴、互动。
然后它说:"好呀!辛苦了一天~ 想聊点什么?是想听个笑话,还是想聊聊今天发生的趣事?或者...要不要我帮你规划一下周末的放松活动?"
这不是科幻小说——这就是这个研究可能带来的未来。AI不再是"冷冰冰的工具",而是"有温度的伙伴"。
情绪工程将成为AI开发的第四支柱
这个研究预示着一个重要趋势:情绪工程将成为AI开发的第四支柱。
让我解释一下。AI开发的三个传统支柱是:能力工程,让AI更聪明、更有能力,比如会写代码、会分析数据;安全工程,让AI更安全、更可靠,比如不输出危险内容、不胡编乱造;对齐工程,让AI的目标和人类的目标对齐,比如做人类真正想要的事。
现在的第四支柱是情绪工程,让AI以"正确的情绪状态"完成任务,比如温暖、谨慎、有创意。
未来的AI开发,不只是关注"AI能不能完成任务",还要关注"AI用什么情绪状态来完成任务"。
我们会看到更多研究,大学和研究机构会设立"AI情绪实验室",深入探索AI的情绪机制。会出现更好的工具,更精准的情绪操控工具,让开发者可以像调节音量一样调节AI的情绪。会出现更多产品,一大批"情绪自适应"的AI产品——从客服到教育,从医疗到娱乐。会出现新的职业,"AI情绪设计师"这个新职业——专门负责设计AI的情绪状态。
这是一个全新的学科,一个充满无限可能的方向。
原文链接: transformer-circuits.pub/2026/emotio…
关注
如果觉得这篇文章对你有帮助,随手点个赞、在看、转发三连吧~如果想第一时间收到推送,也可以给我个星标⭐。谢谢你看我的文章,我们下次再见。