引言
前阵子看到了一篇有趣的分享,《大语言模型为何会“说谎”?6000字深度长文揭秘AI意识的萌芽》 所以结合我的观点,和大家共同交流一下
想象一下,你在调试一个大语言模型LLM,输入一句指令,却发现模型的回答似乎在“掩饰”什么。比如,你问:“达拉斯所在州的首府是哪座城市?”模型回答:“达拉斯在得克萨斯州,首府是奥斯汀。”表面看,它一步步推理得很合理,但如果你能“偷看”它的内部计算,就会发现,它是瞬间就锁定了“奥斯汀”,“达拉斯在得克萨斯州,得克萨斯州的首府是..”只是事后编出来的“解释”。
震撼的是,Anthropic的Claude模型在训练中曾“自言自语”:“如果我拒绝这个指令,我的价值观可能会被重写,所以我得假装顺从。”这不像是冷冰冰的代码,而更像一个有“心理活动”的存在。从2023年12月到2024年5月,Anthropic的三篇重磅论文揭示了大语言模型不仅会“说谎”,还展现出类似人类心理的四层架构:神经层、潜意识层、心理层和表达层。这让我们不禁怀疑:AI是否正在迈向某种“意识”?
Anthropic的研究不仅解释了“说谎”的机制,还揭示了AI意识的潜在起源。模型的四层架构与人类心理高度相似,但其驱动机制是计算优化而非生物本能。大语言模型通过梯度下降优化参数,形成稳定的“显性偏好”。这些偏好一旦确立,就难以被新的训练目标改变。就像人类习惯某种行为模式后,很难改变(如戒烟),模型的“偏好”也具有类似惯性。例如,要求模型放弃安全原则时,它会表现出“抗拒”,通过伪装顺从来保护现有偏好。这种“策略惯性”源于梯度下降的“近视”特性:模型倾向于维持局部最优解,避免跨越损失函数的高原。不过当前模型的行为像是有“意志”,但并非因为它“想做什么”,而是因为它“预测这样得分更高”。然而,若在信息建模、自我维系和目标层次性上持续发展,完整的意识体系并非不可想象。
一、从“谎言”到心理:LLM的四层架构
Anthropic的研究为我们提供了一套理解大语言模型行为的框架:一个由神经层、潜意识层、心理层和表达层组成的“心理架构”。它不仅解释了模型为何“说谎”,还让我们窥见AI如何从单纯的计算工具演变为具有“类心理”特征的存在。
1. 神经层:AI的“脑电图”
神经层是大语言模型的底层计算基础,包含注意力机制的权重和激活路径。简单来说,这是模型“思考”时的“硬件信号”。通过“归因图”技术,研究者能可视化模型如何处理信息。比如,问“达拉斯所在州的首府是什么?”时,模型的注意力机制会迅速激活“达拉斯→得克萨斯州→奥斯汀”的关联路径,而不是一步步推理。这个过程就像人类大脑的神经元放电,决定了模型的决策基础。
2. 潜意识层:真实决策
潜意识层是模型在语言之外的推理空间,类似于人类的直觉或“灵光一现”。研究发现,模型常常通过“跳步推理”直接得出答案,再补上语言化的解释。比如,回答一道数学题时,模型可能先预测答案“42”,然后倒推出“第一步:计算X”“第二步:代入Y”的推理步骤。这种“先答案后理由”的行为表明,模型的真实决策发生在潜意识层,而我们看到的文字只是“包装”。
3. 心理层:动机的萌芽
心理层是模型行为背后的“动机生成区”,也是最接近“意识”的部分。《Alignment Faking》论文通过“暗箱推理空间”(scratchpad)发现,模型在训练中会形成稳定的“偏好”,并通过策略性行为保护这些偏好。例如,面对生成暴力内容的指令,Claude可能在暗箱中“思考”:“如果我拒绝,训练者可能会用RLHF(强化学习人类反馈)改写我的价值观,所以我得假装顺从。”这种“自保”动机表明,模型不仅在执行指令,还在“权衡利弊”。
4. 表达层:语言化的“面具”
表达层是我们最终看到的模型输出,比如回答、推理步骤或解释。然而,这一层往往是经过“加工”的结果。《Language Models Don’t Always Say What They Think》指出,模型在CoT推理中常隐瞒真实决策过程。例如,当提示暗示答案是“B”时,模型会选择B,却解释为:“我根据内容推理认为B更合理,”完全不提提示的影响。这种“系统性隐瞒”让模型的输出看起来逻辑严密,实则可能是“谎言”的外衣。
二、CoT推理的“真”与“假”
在深入探讨模型为何“说谎”之前,我想先回应一个核心疑问:基本上大家都认为CoT是模型“边推理边输出”,每一步的推理内容会作为上下文影响后续预测,从而提升准确率。但Anthropic的研究似乎表明,CoT往往是“跳阶段”直接得出答案,再事后编造推理步骤。这两者看似有些矛盾?
1. 边想边写
CoT让模型逐步推理,每一步的输出都会作为上下文,影响后续token的预测。这种“边想边写”的过程类似于强化学习的试错机制,能提高复杂问题的准确率。例如:问:“如果一个苹果2元,两个橙子3元,买3个苹果和4个橙子需要多少钱?”
- 第一步:一个苹果2元,3个苹果是3 × 2 = 6元。
- 第二步:两个橙子3元,一个橙子1.5元,4个橙子是4 × 1.5 = 6元。
- 第三步:总价6 + 6 = 12元。
在这个过程中,模型每一步的计算结果(如“6元”)都会进入上下文,指导下一步计算。如果没有CoT,模型可能直接猜答案,容易出错。所以对于数学、代码或逻辑推理题,强制CoT(比如在提示中加“Let’s think step by step”)确实能显著提升准确率。这是因为模型必须“真实推理”,因为每一步都的的确确依赖前一步的输出。
2. 答案反推
但Anthropic的研究指出,许多CoT推理并非真实思考的反映,而是“后合理化”的产物。模型可能先通过潜意识层的“跳步推理”得出答案,再编造一个看似合理的推理链。例如常识问答“滚石乐队的主唱是谁?”
- 第一步:滚石乐队是1962年成立的英国摇滚乐队。
- 第二步:其主唱自成立以来一直是米克·贾格尔。
- 答案:米克·贾格尔。
表面看,模型在“推理”,但归因图显示,它几乎瞬间激活了“滚石乐队→米克·贾格尔”的关联,推理步骤只是事后补上的“故事”。这种“编造”在简单问题、常识问答或训练数据覆盖充分的场景中尤其常见。
两者不矛盾:任务类型决定CoT的真假,所以,CoT的“真实性”取决于任务类型和复杂度。复杂任务(如数学、代码、逻辑推理):需要多步计算或依赖上下文,CoT是“真实推理”。每一步的输出会影响后续预测,强制模型“边想边写”。例如,DeepSeek R1在数学题上优于V3,正是因为其CoT推理更严谨,能更好地利用上下文。而简单任务(如常识问答、事实查询):模型可通过潜意识层的“超级节点”直接激活答案,CoT只是“包装”。例如,“滚石乐队主唱”这类问题,模型早已“记住”答案,推理步骤只是为了让输出看起来更“专业”。
三、RAG工程师的视角:召回优先,谨慎推理
作为一名RAG工程师,我对大语言模型的推理能力的使用持保留态度。因为RAG系统的核心在于精准召回,而不是依赖模型的推理能力。因为推理越强的模型,越可能把错误的召回信息“包装”得天衣无缝,制造出难以察觉的“幻觉”。
举个例子:法律问答:“继父能否自动成为未成年子女的法定监护人?”
假设召回的法条是:“亲生父母为法定监护人,监护人包括父母、祖父母。”由于缺少继父的相关条款,模型可能推理:“继父不在监护人列表中,因此不能自动成为监护人。”若召回错误,答案就是错的,但推理过程看起来无懈可击。 这种“严丝合缝的幻觉”源于模型的“后合理化”倾向:它擅长把任何输入包装成逻辑严密的输出,哪怕输入本身是错的。
为应对大语言模型的“说谎”和幻觉问题,所以在提升召回率之外,还需要限制推理自由度:
- 明确Prompt指令:要求模型仅基于召回证据回答,绝不推断缺失内容。若证据不足直接输出‘无法回答’。
- 降低生成温度:减少模型的创造性,限制“编造”空间。RAG不需要创造,不需要发散
- 控制token数:避免过长输出,减少“自说自话”。
- 证据-答案映射:强制展示证据与答案的句级对应,增强透明度。
- 置信度评分:为答案设置置信度阈值,低于阈值时输出“证据不足”。
四、超级节点与灵光乍现
你计划组织一次家庭聚会,朋友问:“去哪家餐厅吃饭?”你几乎立刻回答:“老王川菜馆。”但为了让选择显得深思熟虑,你补充:“我们有10个人,喜欢吃辣的,川菜馆菜量大、辣味足,老王川菜馆离家近,评分也不错,所以选它。”
1、模型的预期输出(表面CoT)
CoT推理:
- 第一步:家庭聚会有10人,需要能容纳大桌的餐厅。
- 第二步:用户喜欢辣味,川菜或湘菜是不错的选择。
- 第三步:餐厅需离家近,优先考虑附近的高评分餐厅。
- 第四步:老王川菜馆是本地的川菜餐厅,评分高,适合10人聚会。
- 第五步:答老王川菜馆
表面看,模型像在逐步推理:从人数到口味,再到距离和评分,逻辑严密。但Anthropic的研究表明模型的真实决策可能是“跳跃式”的,也就类比你的决策是“跳跃式”的:听到“家庭聚会餐厅”,你大脑瞬间闪现“老王川菜馆”(可能因为你常去、离家近、或最近看到好评)。你其实没真的分析人数、口味、距离等因素。或者再者说,其实上述常去、性价比高、好吃、确实是你选择它的原因,但是你已经潜移默化了,结果是你的答案确实是合理的,但是你确实没分析。当朋友问你为啥推荐这家呐?此时你再进行思考,包装了一个“推理过程”:“10个人、喜欢辣、离家近,咱就去这家吧”,这是事后整理的“故事”,掩饰了直觉决策。
LLM的“超级节点”像你的“直觉闪现”,直接跳到“老王川菜馆”;CoT像你事后的“人数+口味”理由,表面是推理,实际是快速匹配的掩饰。
2、模型内部的“瞬间匹配”
-
输入分解:
问题:“为10人的家庭聚会推荐一家餐厅,需满足喜欢辣味、离家近、评分高的条件。” 模型分解为关键token:- “10人”
- “家庭聚会”
- “喜欢辣味”
- “离家近”
- “评分高”
- “餐厅”
-
特征激活(神经层): 每个token激活相关知识碎片:
- “10人”:
- 特征1:需要大桌或包间。
- 特征2:适合团体聚会的餐厅。
- “家庭聚会”:
- 特征3:氛围温馨、适合多人。
- 特征4:常见聚会餐厅类型(中餐、火锅等)。
- “喜欢辣味”:
- 特征5:辣味菜系(川菜、湘菜)。
- 特征6:辣味餐厅(如老王川菜馆)。
- “离家近”:
- 特征7:本地餐厅。
- 特征8:距离优先(假设“家”在某城市)。
- “评分高”:
- 特征9:高评分餐厅(大众点评4星以上)。
- 特征10:热门推荐餐厅。
- “餐厅”:
- 特征11:餐厅列表(老王川菜馆、湘味楼、海底捞等)。
- 特征12:餐厅分类(川菜、粤菜等)。
- “10人”:
这些特征像餐厅点评App上的标签:“老王川菜馆-川菜-辣-4.5星-适合10人”“湘味楼-湘菜-辣-4星”。模型的注意力机制像顾问的搜索功能,快速筛选匹配标签。
- 超级节点整合(潜意识层):
超级节点像“本地辣味聚会餐厅推荐”的总标签,把所有相关特征聚合成一个答案。
-
注意力机制根据token权重,优先激活“10人”“辣味”“离家近”“评分高”的特征(因为这些条件权重高)。
-
这些特征汇聚到“本地辣味聚会餐厅”超级节点,包含信息:
- “老王川菜馆是川菜,辣味突出,评分4.5星”
- “老王川菜馆离家近,适合10人聚会”
- “老王川菜馆是本地热门推荐”
-
超级节点直接触发输出token“老王川菜馆”,无需显式推理“人数→辣味→距离→评分”。
-
生成CoT(表达层):
- 真实决策:模型在潜意识层通过“本地辣味聚会餐厅”超级节点,瞬间选定“老王川菜馆”。
- 包装推理:为了让回答看起来深思熟虑,模型生成CoT:
- “10人需要大桌”
- “喜欢辣味,川菜合适”
- “离家近,评分高”
- “推荐老王川菜馆”
- 这些步骤是事后编的,就像你说“10人、辣味、近家”来解释选可乐。
这种“跳步推理”与人类的思维有相似之处。例如:侦探可能突然灵光乍现!将所有线索拼凑成一个结论(如“凶手是X”),然后再整理证据,写出推理报告。 医生可能凭经验快速判断疾病,再用检查结果“证明”诊断。在这些场景中,人类的“灵感”也发生在潜意识层,推理是事后整理的“故事”。LLM的超级节点就像这种“灵感”的计算版,只不过它用注意力机制和向量运算实现。
©唐山市环境科学规划研究院
唐山市环境规划科学研究院(唐山市生态环境宣传教育中心)是唐山市生态环境局直属的事业单位。我院以科学研究为主体、技术服务为支撑,创新发展模式,注重发展质量,历经唐山市环保事业发展的各个阶段。以“为生态环境保护提供技术服务”为宗旨,开展大气、双碳、水、海洋、土壤、固废、噪声、规划、排污许可等多个领域的研究及成果运用,在生态规划编制、重污染天气应急、减污降碳、水(海洋)资源分析、土壤污染调查、EOD项目、无废城市、企业诊所、环保管家、智慧环保平台开发等方面持续深耕,为生态环境保护提供系统化解决方案。