很多人最近都有一种很微妙的体验。
你让 AI 写一份行业分析、做一版方案框架,甚至帮你拆商业模式,它常常表现得像个训练有素的顾问;但你追问一个短事实、一个基础判断,或者让它在不确定时明确说一句“不知道”,它又会突然露怯。
更麻烦的是,这种露怯并不总是显得笨。恰恰相反,它常常显得很像对。
这也是今天讨论大模型时最容易被忽略的一个变化:问题已经不只是“知识够不够多”,而是它到底能不能把知道的东西,稳定、诚实、低偏差地说出来。
如果沿着这个角度看,所谓 AI 的“知识贫困”,其实更像一种升级版的问题:可靠性贫困。
一、为什么越强的 AI ,反而越容易让人觉得“基础不稳”?
这个感觉不是错觉。
2024 年 Nature 上有一篇论文,标题非常直接:《 Larger and more instructable language models become less reliable 》。它研究的不是模型能不能做复杂任务,而是一个更现实的问题:模型在不同难度的问题上,到底是否变得更可靠了。
结论并不轻松。论文发现,模型在变得更大、更“听话”、更像一个可用助手之后,并没有自然形成一个让人放心的“低难度安全区”。换句话说,很多在人类看来本该稳稳答对的问题,模型依然可能出错。
更值得注意的是,旧模型和新模型的出错方式不一样。
早期模型更像一个没准备好的学生:不会就卡住,或者干脆回避。现在的大模型更像一个表达能力极强的汇报者:它未必更知道答案,但更擅长把一个错误答案说得像样。
这也是为什么很多人的主观感受会变成一句很传神的话:旧模型常常不会答,新模型常常会答错。
问题出在哪?并不一定是知识总量真的更少,而是“知识调用”这件事没有跟能力增长同步升级。
二、这不是单纯的“没学会”,而是“调用失真”
大众很容易把 AI 想成一个会说话的百科全书。但从工作机制看,大模型从来不是传统意义上的知识库。
它更像一个极其强大的“下一个词预测器”。
这句话已经被讲过很多次了,但直到今天,它依然是理解大模型局限性的第一把钥匙。因为这意味着:模型在回答问题时,优化目标并不天然等于“真相优先”,很多时候更接近于“生成一段最像答案的话”。
这两者在大量场景里看起来差不多,但在事实性、唯一答案、需要明确表达不确定性的场景里,差别就会被迅速放大。
于是你会看到一种很典型的现象:
•它知道相关概念;•它也知道上下文大概在说什么;•它还能组织出一段流畅、完整、结构甚至不错的话;•但关键事实就是差了一点,甚至完全错位。
这就是为什么今天很多 AI 错误,不再是“胡说八道式错误”,而是“专业体面式错误”。
它的问题不是完全无知,而是把不确定包装成确定,把高概率包装成真事实。
三、后训练让模型更像助手,但不一定更像知识机器
还有一个经常被忽略的变化,是大模型在后训练阶段经历了大量“产品化塑形”。
我们希望它更有帮助、更礼貌、更像一个顺手的助手,于是有了大量 instruction tuning 、偏好对齐、反馈优化。这个方向并没有问题,甚至可以说是 AI 从实验室走向产品的必经之路。
但副作用也在慢慢显现。
关于 continual fine-tuning 和 catastrophic forgetting 的研究,这两年都在提醒同一个事实:模型在持续微调过程中,确实可能出现遗忘、能力漂移和知识调用路径受扰动的问题。 2025 年延续发表的一项研究就提到,持续 fine-tuning 下, LLM 的知识、推理和阅读理解都会出现不同程度的遗忘,而在一些参数规模区间里,模型越大,遗忘还可能更明显。
这件事如果换成白话,其实很好理解。
你可以把预训练想成“广泛读书”,把后训练想成“职业培训”。职业培训会让一个人更会沟通、更会服务、更懂场景,但如果训练目标过强、过窄,也可能让他在一些原本朴素直接的知识调用上,变得没那么自然。
所以今天大模型的一个真实变化是:它越来越像产品,未必越来越像知识库。
这不是退步,而是取舍。
只是这个取舍,在高频使用时会被用户直观感受到:为什么它越来越会聊天,反而不总能老老实实回答一个简单问题?
四、 2026 年一个很新的发现: AI 可能不是不会,而是“想太多了”
如果说前面的问题还可以归结为“知识调用失真”,那么 2026 年关于推理模型的一些新研究,进一步揭示了另一个更反直觉的现象:大模型开始出现过度思考。
2026 年 4 月的一篇论文《 When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling 》直接研究了这个问题。它关注的是:当我们不断给模型更多 test-time compute ,让它输出更长的思维链时,效果是不是一定更好?
答案是否定的。
论文发现,随着推理 token 增加,收益会明显递减。更关键的是,在某些情况下,模型会出现典型的 overthinking :它原本已经走在正确答案上,结果越想越偏,最后反而放弃了原本正确的判断。
这太像我们考试时的一种老毛病了。
有些题第一眼选对了,第二眼开始犹豫,第三眼试图“想深一点”,最后把答案改错。今天的大模型,某种程度上也开始表现出这种行为模式。
这背后意味着什么?
意味着今天很多人感受到的“AI 连简单题都不稳”,有时未必是基础知识差,而是强推理能力把简单问题也复杂化了。模型不再只是“想不出来”,它开始出现“想过头”。
这也是为什么未来评价推理模型,不能只看“能不能想得更长”,还得看“知不知道什么时候该停”。
五、幻觉不只是技术问题,可能还是评测机制的问题
如果继续往下看,问题会变得更有意思。
2026 年 Nature 另一篇文章《 Evaluating large language models for accuracy incentivizes hallucinations 》提出了一个很尖锐的观点:今天很多 accuracy 导向的评测方式,本身就在激励模型胡猜。
这篇文章的价值,在于它把“幻觉”从单纯的能力缺陷,往“激励机制缺陷”推进了一步。
逻辑并不复杂。
如果一个评测体系只看答对率,却没有充分奖励“诚实地说不知道”,那么模型的最优策略是什么?往往不是保守,而是尽量多答。
因为不回答,通常拿不到什么;猜对了有收益;猜错了也只是损失一题。于是从优化角度看,模型就会学到一种非常现实的行为:宁可给一个像样的答案,也别轻易承认自己不知道。
这件事一旦说透,很多现象就都能对上了。
为什么我们总觉得 AI“很爱一本正经地胡说”?
因为在很多系统里,它真的没有被很好地训练去珍惜“不知道”这三个字。
所以幻觉不只是技术 bug ,某种程度上还是 KPI bug 。
当行业长期奖励“像知道”,模型就很难自然长成一个“知道什么时候该闭嘴”的系统。
六、还有一个容易被忽略的问题:也许不是模型退步了,而是题库老了
到这里,我们其实还可以再往前走一步。
2025 年有篇论文《 When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation 》讨论了一个很容易被低估的问题:factuality benchmark 本身也会老化。
这篇文章的意思很简单,但影响很大。
现实世界在变,模型在变,可很多事实性 benchmark 是静态的。题目变旧了、背景变了、知识时间戳失效了,但我们还拿这些题库去判断“模型的事实能力到底有没有进步”。结果会怎样?
结果就是:我们以为在测模型,实际上一部分测到的是 benchmark 自己的保鲜期。
这件事对行业判断有个很重要的提醒。
今天谈“大模型是不是越来越不靠谱”,不能只盯着模型本身,也要盯着我们到底在用什么尺子量它。如果尺子过时,那么一些所谓“知识退化”的印象,未必完全来自模型,也可能来自测量失真。
换句话说,不只模型会老, benchmark 也会老。
七、所以今天真正的问题,不只是“知识贫困”,而是“可靠性贫困”
把这几条线索放在一起看,今天的大模型问题,其实已经不太适合只用“知识贫困”来概括了。
更准确的说法可能是三种贫困。
第一,诚实贫困。
它不够愿意说“不知道”,或者说,它还没有被充分奖励去诚实表达不确定性。
第二,稳定性贫困。
同一个问题,换一种问法、换一个上下文、换一个推理长度,答案质量可能就飘了。
第三,可靠性贫困。
它看起来越来越聪明,但在事实、判断和风险边界上,依然没有形成一个足够让人放心的稳定区。
如果一定要给今天的大模型时代下一个判断,我会更倾向于这么说:
AI 最大的问题,已经不只是“知道多少”,而是“知道的时候能不能稳定说对,不知道的时候能不能老实承认” 。
这比“知识贫困”更接近真实,也更接近下一阶段竞争的关键。
结语:下一场竞争,也许不是谁更聪明,而是谁更诚实
过去几年,行业很容易把大模型竞争理解成“谁更强、谁更大、谁更会推理”。这当然重要,而且还会继续重要。
但如果站在用户体验、企业落地和高风险应用的角度看,接下来更关键的问题也许不是谁能把题做得更难,而是谁能把边界说得更清楚。
说白了,未来真正拉开差距的,可能不是“谁更像天才”,而是三件更朴素的事:
•谁更知道什么时候该答;•谁更知道什么时候不该答;•谁更能在不确定时,诚实地把不确定说出来。
大模型的下一场竞争,也许不再只是智力竞赛。
它会越来越像一场可靠性竞赛。
而在那之前,我们最好先承认一个现实:
AI 最危险的地方,往往不是无知,而是假装知道。