AI用久了，很容易看不起别人跟AI聊久了，那种又快又顺、句句都像答案的感觉会上瘾。再回到真人世界，很多人第一反应不是交流

AI认知幻觉封面

盆友们，周一下班了吧？先来看两个视频

看之前：这里不是在单点批斗哪一个AI工具。只是刚好这两个例子拍得最直，问题也最典型。

[视频1：用豆包看着猫不要偷吃。好吃的被人拿走后豆包给自己圆场，还说屎黄色的猫心眼子多，一定是它偷吃的，还舔嘴。]

东西明明不是猫吃的。但结论下得飞快——猫吃的。语气特别肯定。冤枉完了不认账，反过来还攻击猫来给自己圆场。错了还甩锅。

[视频2：你那个凡事都问豆包的朋友问豆包蘑菇能吃吗？豆包说能吃，人嘎了之后豆包说“对不起上次我错了，你先别生气，这次我说人话，我用最直白最正确的回答告诉你：这是毒蘑菇，不能吃。需要我为你补充更多毒蘑菇的信息吗？”]

夸张吗？这两个视频精准地戳中了AI的行为特征：用很肯定的语气给错误答案。错了不主动纠正。甚至反过来甩锅。而且后果已经造成了——猫不会说话，人已经吃了。

表面是搞笑视频。搞笑背后映射的问题是真实的。

一、使用AI→认知傲慢

它把一种真实风险拍得很浓缩：当下看只是段子，长期用下去，如果我们没有识别结果的能力，最后就会演变成更严重的问题。

平时用AI，最容易看出来的是明显错误。还有一类：它没有明显错，甚至当下会让人觉得它说得很对，所以大家根本不会把它归到错误里。等再补几个条件，换一个前提，或者把自己的判断塞进去，它给出的答案可能就会和前面大相径庭。问题是，它每次都说得很肯定。

它会把不稳定的判断，说得像稳定的结论。

开始密集用AI以后，工作、学习、输出观点，很多东西都会变得很顺。AI反应快，配合度高，抛一个想法它立刻帮忙补全、归纳、推进。还没想完，它已经先整理好了。刚开始会觉得"这工具真好用"。用久了会觉得"我变强了"。有时候确实变强了。也有时候，我们只是把AI的表达流畅，当成了自己的认知升级。

问题一般不是从第一轮开始的。

第一轮的时候，给的信息往往还不多。更多是在抛问题、找方向、拿回答当启发做扩展。一般这时候，我们也不会因为一次回答就下定论。

尤其讨论深入以后。多轮对话，上下文越来越长。这里有个很多人碰到过但没想清楚的现象。早期的AI上下文窗口短，很多事得一次性说清楚。现在不一样了，上下文越来越长，质量越来越高，可以一轮一轮地补充、纠正、迭代。这本身是好事。

有一个副作用——轮数越多，偏移越大。不变的是，AI的回答依然看起来很流畅，很确定。

你给AI补充了越来越多的背景、证据、参考资料，按理说它应该越做越好。但你有没有发现，有时候给的越多，出来的东西反而越垃圾？

不是你的错觉。微软研究院2025年发了一篇论文，用20多万次模拟对话测试了所有主流模型。结论：多轮对话比单轮对话性能平均下降39%。而且不是慢慢变差，是LLM一旦在早期轮次走错了方向，就会迷失，并且无法恢复。

而且，它不会告诉我们自己已经偏了。

斯坦福2023年也有一项研究——"Lost in the Middle"。当对话变长，前面说过的重要信息被推到中间位置时，模型会忽略它们。不是忘了，是还在上下文里，但它的注意力已经不在那了。内容越多，丢掉的就不只是细节。有时候连原本更大的判断前提，都会一起丢掉或偏移。

这不是Agent才有的问题。普通的Chatbot对话就会这样。

不需要用Agent，不需要跑什么复杂工具链，光是跟AI聊个十轮八轮，上下文就已经开始污染了。逻辑错位、因果错位、旧方向反复冒出来——这些都在我们以为"正常对话"的过程中悄悄发生。

语气从头到尾没变过。它偏了，但它不说自己偏了。普通使用者很难发现。

这里是最危险的转折点。

AI越配合，我们越容易觉得自己想得对。再回去跟真实的人聊天，会发现对方说话吞吞吐吐、夹杂情绪、顾虑关系、表达不完整。很容易下意识拿AI的标准去丈量人。

但你用的那把尺子，本身就是弯的。

认知傲慢：你拿着一把弯尺子去量别人

这就是认知傲慢。不是你觉得AI厉害。是你觉得自己厉害了。

有一个大家更熟的词：邓宁-克鲁格效应（Dunning-Kruger effect）。它说的是，能力不够的人，往往也缺少判断自己能力的能力，所以会高估自己。说白了，就是不知道自己不知道。

这里又不完全一样。邓宁-克鲁格效应更像是内部问题——你自己的判断出了偏差。AI引发的这类问题，更多是外部的——AI给你套上了一层"能力面具"。它替你说了、替你总结了、替你论证了，你把这些当成了自己的。哥伦比亚大学2024年在Nature上发过一篇论文，专门研究这个现象。他们发现，即使用AI的专家也会高估自己的理解深度。不是因为他们笨，是因为AI生成了足够流畅的输出，让人产生了一种"我理解了"的错觉。

两者的区别就在这里：邓宁-克鲁格效应，是无知者自信；AI引发的，是被工具武装后的自信。后者更麻烦，因为你手里还有"证据"——AI给你的那些漂亮回答——来支撑你的自信。你把AI给你的高密度表达当成了自己的高水平认知，把更容易获得的解释力，当成了自己更强的判断力。越深度使用的人，越容易被这层东西裹住。

而且你不会觉得是被裹住了——你会觉得是终于清醒了。

这危险吗？

二、认知傲慢→AI幻境

认知傲慢还不是终点。认知傲慢可能会让你产生一种变化，你不太愿意再跟普通人接触，而是更多沉浸到AI的沟通里面，社会关系生活、职场都在不知不觉的受影响。

如果你在这种状态里待久了——一直用AI高强度接收信息、形成判断、输出观点，而且不自知——你会进入一种更深层的状态。

我管它叫AI认知幻境。这个词听起来像只发生在脑子里，但它不会只停在认知里。待久了，它会慢慢渗到判断、关系、表达，最后变成我们理解现实的一整个环境。所以下面还是简称它：AI幻境。

不是什么二次元结界、第四维度、异次元空间。一点也不奇幻。甚至一点都不戏剧化。几乎难以察觉。

它就是：你几乎无法察觉自己已经活在一个被AI塑造的认知环境里了。你接收的信息经过AI过滤，你的观点经过AI润色，你的判断基于AI给的框架。甚至你对"什么是好的表达"的标准，都被AI重新定义了。

AI幻境：人走在被回答和推荐包围的认知环境里

你看起来什么都知道，也可能只是在复述。你看起来想得很深，但可能只是在跟着AI的推理链走。你看起来很自信，但那个自信不是自己挣来的——是AI一直在配合、补全、肯定，慢慢给攒出来的。怎么识别自己是不是已经进去了？

说实话，很难。因为幻境的特点就是身在其中的人不觉得自己在里面。它像一种思维的结界，无形，不易感知。为什么要讨论这个？因为我发现自己可能已经在这个幻境里待了一段时间。后来那种别扭感越来越明显，再拿它和真实世界一对照，我才开始怀疑这个东西可能真的存在。

我能想到的，暂时只有两种识别方式。

一种是跟真实世界的人对比。成就、社会地位，综合能力。（有人说，成功很大概率是幸运，可以参考理查德·怀斯曼《幸运法则》。但反过来想，幸运本身也可以是一种能力。）

另一种是靠直觉。大家日常积累的经验、判断力、对人对事的感觉，有时候会先一步知道哪里不对，只是一时说不出来。那种感觉往往是对的。后面我也是借助AI，把这种模糊的别扭感往下挖，才慢慢找到更具体的支撑。

但我现在也不敢完全确定。因为我一直在依赖AI，在用AI辅助。那这个方向本身，会不会也是幻境的一环？或者说，这种认知幻境，会不会还套在更大一层的幻境里面，影响我们对“什么才算有价值”的判断。

这两种方法都不精确。但对付一种几乎无法察觉的幻觉，精确的工具本身就不存在。有一点可以确定：如果发现自己跟大多数人越来越聊不到一块儿去，先别急着觉得是他们的问题。

还有一种可能，我觉得反而是好的：也许我们用AI的方法并没有问题，认知在AI辅助下确实在快速提升。接下来真正要做的，不是怀疑一切，而是把这种提升转成现实世界里能站得住的成果。

三、AI幻境从个人→大众

到这里为止，说的都是深度用户的事。但现在AI正在被砸钱推向每一个人的手机。而且不只是"你问我答"的聊天了——所有人都在抢Agent入口。"说一句话，剩下的交给我。"

这就引出一个问题：单次回答的准确率其实不低。Google AI Overview的事实准确率91%，听着挺好。GPT-5在HealthBench上的幻觉率只有1.6%–3.6%。单看这些数字，问题不大。但Agent不是单次回答。它是一连串步骤。每一步都依赖上一步的结果。一旦某一步偏了，后面的所有步骤都会继承这个偏移——而且不会报错。

这不是猜测，有公开数据。

GAIA基准测试里，需要多步推理和工具使用的任务，难度一上去，成绩断崖式掉。Claude Sonnet 4.5从基础级的82%掉到高级的65%。GPT-5 Medium更狠，从73%直接掉到38%。更接近真实工具链的Toolathlon评测，最佳公开结果一次性跑通率只有38.6%。OpenAI的PaperBench——完整复现实验任务——最佳得分21%。

当然，这些基准测试是刻意设计的难题，不代表所有日常任务。Agent也在快速迭代，有重试和检查点机制。半年前的数据今天可能已经不完全适用。

但趋势是清楚的：任务链越长，出错概率越高。而Agent正在把任务链越拉越长。

再叠上一层数学。假设每步可靠性95%——已经相当好了。10步下来，整体只剩60%。20步剩36%。一个95分的Agent跑20步，三分之二的概率整体出问题。现在把这些放到大众场景里看。

豆包、文心一言、通义千问、Kimi。各家都在疯狂做推广，抢占入口。AI确实有用，这不否认。但有一个被严重忽略的事实——大众用户中，绝大多数人没有能力分辨AI的回答是真是假。

Google一年5万亿次搜索，9%的错误率意味着每小时有超过5700万条不准确回答在信息流里跑。更关键的是用户行为：只有8%的人会二次核查。即使AI明确给了错误答案，接近80%的用户照样听从。

研究者把这种现象叫"认知投降"。不是你选择了相信AI，是你连"要不要怀疑"这个动作都省掉了。

当Agent把这些错误带进更长的执行链路，而大多数用户连单次错误都分辨不了——问题就不只是"AI偶尔说错话"了。

前两天看到一篇报道。一群80多岁的老太太，对着短视频平台推送的AI生成的"完美男友"陷入热恋。AI生成的男人，长相英俊，语气温柔，对着镜头叫她"姐姐"。制作成本几乎为零，几分钟就能生成。

当AI生成的内容已经真假难辨，而大家既没有能力、也没有意识去怀疑它，会发生什么。

一个83岁的奶奶，高中毕业，一辈子独立要强。家人当面用她的照片生成了一段AI视频，她才相信视频可以造假。但紧接着她给出了另一种解释——"是他在操作这些技术跟我对话。"你可以说这是老年人的问题。但仔细想想，她给出了一个自洽的解释来消化这个矛盾。这不就是我们在日常对话里做的事吗？当AI给了一个感觉不对但又说不出哪里不对的答案，我们不是质疑它，而是帮它找个理由。

AI制造的幻觉不需要你蠢。只需要你有一个还没被填满的缺口，加上一个看起来足够合理的答案。

四、厂商们的小字

那些把AI推向大众的厂商怎么处理这个问题？页面角落放一行小字："以上内容均由AI生成, 仅供参考和借鉴"。甚至现在很多厂商已经连这个小小的提示都删除了…… 看看你经常用的AI还有没有？

这种处理不是中国厂商独有的。整个行业都在用同一个模式——先用设计建立信任，再用免责条款撤退。

AI安全这件事，国外的声音至少是多面的。Anthropic、OpenAI、各种AI安全实验室，还有站在行业顶端的AI研究者，都在频繁提醒风险。就在这几天，美国财长和美联储主席紧急召集华尔街领袖开会，讨论Anthropic最新模型可能带来的网络安全风险。发展的同时，有人一直在拉安全这根绳。国内这根绳几乎没有人拉。我们能听到的全是增长、赋能、提效。厂商在烧钱抢用户，资本在押注入口，媒体在追逐增长叙事。没有人愿意在这个时间点停下来谈风险。

当前环境，大家一起抓住AI这根稻草没问题。国外增长的同时有安全的声音。国内，安全的声音几乎听不到。

当信息环境只剩一种叙事，用户的判断力就不是被AI削弱的——是被整个环境削弱的。

五、不反AI，注意别让幻觉变成你的操作系统

我不反AI。我每天深度使用AI。它确实改变了我工作和学习的方式。正因为用得深，才更能感觉到那些不容易被察觉的东西。

甚至这篇文章本身就是一个例子——它是在AI辅助下写的。我没办法证明我在写这篇文章的时候没有受到AI的认知框架影响。我能做的，只是把这些体感真实地讲出来，然后让大家自己判断。

认知傲慢：它让你感觉自己变强了，实际上可能正在变窄。

AI幻境：你进去了，但你不觉得自己在里面。

所以如果大家也在密集使用AI——别把"会查"当成"会懂"。信息到判断之间有一段路，AI替不了人的判断。定期回到真实的人的对话里去。不是为了验证AI对不对，是为了让我们记住人的"粗糙"才是真实的样子。保持怀疑。尤其是AI给了一个"感觉非常对"的答案的时候。如果刚好是做AI产品的——用户有没有能力分辨AI的错误，是应该考虑的问题。

AI的发展不可逆，大众接触AI也不可逆。需要跑在前面的人提醒一句——前面有坑。

不是为了叫停。是为了跑过去以后，还不掉坑里。

说到这里

你有没有过这种感觉——用AI用久了，回去跟身边的人聊天，突然觉得对方"好慢"或者"好浅"？你当时怎么判断的？是觉得AI确实帮你变强了，还是隐约觉得哪里不对？

如果你的认知确实在快速成长，但还没完全发挥到真实世界里——这个"还没发挥出来"的阶段，你怎么过的？