从‘知识贫困’到‘可靠性贫困’:为什么大模型越聪明,越不让人放心?

12 阅读10分钟

很多人最近都有一种很微妙的体验。

你让 AI 写一份行业分析、做一版方案框架,甚至帮你拆商业模式,它常常表现得像个训练有素的顾问;但你追问一个短事实、一个基础判断,或者让它在不确定时明确说一句“不知道”,它又会突然露怯。

更麻烦的是,这种露怯并不总是显得笨。恰恰相反,它常常显得很像对。

这也是今天讨论大模型时最容易被忽略的一个变化:问题已经不只是“知识够不够多”,而是它到底能不能把知道的东西,稳定、诚实、低偏差地说出来

如果沿着这个角度看,所谓 AI 的“知识贫困”,其实更像一种升级版的问题:可靠性贫困

一、为什么越强的 AI ,反而越容易让人觉得“基础不稳”?

这个感觉不是错觉。

2024 年 Nature 上有一篇论文,标题非常直接:《 Larger and more instructable language models become less reliable 》。它研究的不是模型能不能做复杂任务,而是一个更现实的问题:模型在不同难度的问题上,到底是否变得更可靠了。

结论并不轻松。论文发现,模型在变得更大、更“听话”、更像一个可用助手之后,并没有自然形成一个让人放心的“低难度安全区”。换句话说,很多在人类看来本该稳稳答对的问题,模型依然可能出错。

更值得注意的是,旧模型和新模型的出错方式不一样。

早期模型更像一个没准备好的学生:不会就卡住,或者干脆回避。现在的大模型更像一个表达能力极强的汇报者:它未必更知道答案,但更擅长把一个错误答案说得像样。

这也是为什么很多人的主观感受会变成一句很传神的话:旧模型常常不会答,新模型常常会答错

问题出在哪?并不一定是知识总量真的更少,而是“知识调用”这件事没有跟能力增长同步升级。

二、这不是单纯的“没学会”,而是“调用失真”

大众很容易把 AI 想成一个会说话的百科全书。但从工作机制看,大模型从来不是传统意义上的知识库。

它更像一个极其强大的“下一个词预测器”。

这句话已经被讲过很多次了,但直到今天,它依然是理解大模型局限性的第一把钥匙。因为这意味着:模型在回答问题时,优化目标并不天然等于“真相优先”,很多时候更接近于“生成一段最像答案的话”。

这两者在大量场景里看起来差不多,但在事实性、唯一答案、需要明确表达不确定性的场景里,差别就会被迅速放大。

于是你会看到一种很典型的现象:

•它知道相关概念;•它也知道上下文大概在说什么;•它还能组织出一段流畅、完整、结构甚至不错的话;•但关键事实就是差了一点,甚至完全错位。

这就是为什么今天很多 AI 错误,不再是“胡说八道式错误”,而是“专业体面式错误”。

它的问题不是完全无知,而是把不确定包装成确定,把高概率包装成真事实

三、后训练让模型更像助手,但不一定更像知识机器

还有一个经常被忽略的变化,是大模型在后训练阶段经历了大量“产品化塑形”。

我们希望它更有帮助、更礼貌、更像一个顺手的助手,于是有了大量 instruction tuning 、偏好对齐、反馈优化。这个方向并没有问题,甚至可以说是 AI 从实验室走向产品的必经之路。

但副作用也在慢慢显现。

关于 continual fine-tuning 和 catastrophic forgetting 的研究,这两年都在提醒同一个事实:模型在持续微调过程中,确实可能出现遗忘、能力漂移和知识调用路径受扰动的问题。 2025 年延续发表的一项研究就提到,持续 fine-tuning 下, LLM 的知识、推理和阅读理解都会出现不同程度的遗忘,而在一些参数规模区间里,模型越大,遗忘还可能更明显。

这件事如果换成白话,其实很好理解。

你可以把预训练想成“广泛读书”,把后训练想成“职业培训”。职业培训会让一个人更会沟通、更会服务、更懂场景,但如果训练目标过强、过窄,也可能让他在一些原本朴素直接的知识调用上,变得没那么自然。

所以今天大模型的一个真实变化是:它越来越像产品,未必越来越像知识库

这不是退步,而是取舍。

只是这个取舍,在高频使用时会被用户直观感受到:为什么它越来越会聊天,反而不总能老老实实回答一个简单问题?

四、 2026 年一个很新的发现: AI 可能不是不会,而是“想太多了”

如果说前面的问题还可以归结为“知识调用失真”,那么 2026 年关于推理模型的一些新研究,进一步揭示了另一个更反直觉的现象:大模型开始出现过度思考

2026 年 4 月的一篇论文《 When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling 》直接研究了这个问题。它关注的是:当我们不断给模型更多 test-time compute ,让它输出更长的思维链时,效果是不是一定更好?

答案是否定的。

论文发现,随着推理 token 增加,收益会明显递减。更关键的是,在某些情况下,模型会出现典型的 overthinking :它原本已经走在正确答案上,结果越想越偏,最后反而放弃了原本正确的判断

这太像我们考试时的一种老毛病了。

有些题第一眼选对了,第二眼开始犹豫,第三眼试图“想深一点”,最后把答案改错。今天的大模型,某种程度上也开始表现出这种行为模式。

这背后意味着什么?

意味着今天很多人感受到的“AI 连简单题都不稳”,有时未必是基础知识差,而是强推理能力把简单问题也复杂化了。模型不再只是“想不出来”,它开始出现“想过头”。

这也是为什么未来评价推理模型,不能只看“能不能想得更长”,还得看“知不知道什么时候该停”。

五、幻觉不只是技术问题,可能还是评测机制的问题

如果继续往下看,问题会变得更有意思。

2026 年 Nature 另一篇文章《 Evaluating large language models for accuracy incentivizes hallucinations 》提出了一个很尖锐的观点:今天很多 accuracy 导向的评测方式,本身就在激励模型胡猜

这篇文章的价值,在于它把“幻觉”从单纯的能力缺陷,往“激励机制缺陷”推进了一步。

逻辑并不复杂。

如果一个评测体系只看答对率,却没有充分奖励“诚实地说不知道”,那么模型的最优策略是什么?往往不是保守,而是尽量多答。

因为不回答,通常拿不到什么;猜对了有收益;猜错了也只是损失一题。于是从优化角度看,模型就会学到一种非常现实的行为:宁可给一个像样的答案,也别轻易承认自己不知道

这件事一旦说透,很多现象就都能对上了。

为什么我们总觉得 AI“很爱一本正经地胡说”?

因为在很多系统里,它真的没有被很好地训练去珍惜“不知道”这三个字。

所以幻觉不只是技术 bug ,某种程度上还是 KPI bug 。

当行业长期奖励“像知道”,模型就很难自然长成一个“知道什么时候该闭嘴”的系统。

六、还有一个容易被忽略的问题:也许不是模型退步了,而是题库老了

到这里,我们其实还可以再往前走一步。

2025 年有篇论文《 When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation 》讨论了一个很容易被低估的问题:factuality benchmark 本身也会老化

这篇文章的意思很简单,但影响很大。

现实世界在变,模型在变,可很多事实性 benchmark 是静态的。题目变旧了、背景变了、知识时间戳失效了,但我们还拿这些题库去判断“模型的事实能力到底有没有进步”。结果会怎样?

结果就是:我们以为在测模型,实际上一部分测到的是 benchmark 自己的保鲜期。

这件事对行业判断有个很重要的提醒。

今天谈“大模型是不是越来越不靠谱”,不能只盯着模型本身,也要盯着我们到底在用什么尺子量它。如果尺子过时,那么一些所谓“知识退化”的印象,未必完全来自模型,也可能来自测量失真。

换句话说,不只模型会老, benchmark 也会老。

七、所以今天真正的问题,不只是“知识贫困”,而是“可靠性贫困”

把这几条线索放在一起看,今天的大模型问题,其实已经不太适合只用“知识贫困”来概括了。

更准确的说法可能是三种贫困。

第一,诚实贫困

它不够愿意说“不知道”,或者说,它还没有被充分奖励去诚实表达不确定性。

第二,稳定性贫困

同一个问题,换一种问法、换一个上下文、换一个推理长度,答案质量可能就飘了。

第三,可靠性贫困

它看起来越来越聪明,但在事实、判断和风险边界上,依然没有形成一个足够让人放心的稳定区。

如果一定要给今天的大模型时代下一个判断,我会更倾向于这么说:

AI 最大的问题,已经不只是“知道多少”,而是“知道的时候能不能稳定说对,不知道的时候能不能老实承认”

这比“知识贫困”更接近真实,也更接近下一阶段竞争的关键。

结语:下一场竞争,也许不是谁更聪明,而是谁更诚实

过去几年,行业很容易把大模型竞争理解成“谁更强、谁更大、谁更会推理”。这当然重要,而且还会继续重要。

但如果站在用户体验、企业落地和高风险应用的角度看,接下来更关键的问题也许不是谁能把题做得更难,而是谁能把边界说得更清楚。

说白了,未来真正拉开差距的,可能不是“谁更像天才”,而是三件更朴素的事:

•谁更知道什么时候该答;•谁更知道什么时候不该答;•谁更能在不确定时,诚实地把不确定说出来。

大模型的下一场竞争,也许不再只是智力竞赛。

它会越来越像一场可靠性竞赛。

而在那之前,我们最好先承认一个现实:

AI 最危险的地方,往往不是无知,而是假装知道