从‘知识贫困’到‘可靠性贫困’：为什么大模型越聪明，越不让人放心？很多人最近都有一种很微妙的体验。你让 AI 写一份行

很多人最近都有一种很微妙的体验。

你让 AI 写一份行业分析、做一版方案框架，甚至帮你拆商业模式，它常常表现得像个训练有素的顾问；但你追问一个短事实、一个基础判断，或者让它在不确定时明确说一句“不知道”，它又会突然露怯。

更麻烦的是，这种露怯并不总是显得笨。恰恰相反，它常常显得很像对。

这也是今天讨论大模型时最容易被忽略的一个变化：问题已经不只是“知识够不够多”，而是它到底能不能把知道的东西，稳定、诚实、低偏差地说出来。

如果沿着这个角度看，所谓 AI 的“知识贫困”，其实更像一种升级版的问题：可靠性贫困。

一、为什么越强的 AI ，反而越容易让人觉得“基础不稳”？

这个感觉不是错觉。

2024 年 Nature 上有一篇论文，标题非常直接：《 Larger and more instructable language models become less reliable 》。它研究的不是模型能不能做复杂任务，而是一个更现实的问题：模型在不同难度的问题上，到底是否变得更可靠了。

结论并不轻松。论文发现，模型在变得更大、更“听话”、更像一个可用助手之后，并没有自然形成一个让人放心的“低难度安全区”。换句话说，很多在人类看来本该稳稳答对的问题，模型依然可能出错。

更值得注意的是，旧模型和新模型的出错方式不一样。

早期模型更像一个没准备好的学生：不会就卡住，或者干脆回避。现在的大模型更像一个表达能力极强的汇报者：它未必更知道答案，但更擅长把一个错误答案说得像样。

这也是为什么很多人的主观感受会变成一句很传神的话：旧模型常常不会答，新模型常常会答错。

问题出在哪？并不一定是知识总量真的更少，而是“知识调用”这件事没有跟能力增长同步升级。

二、这不是单纯的“没学会”，而是“调用失真”

大众很容易把 AI 想成一个会说话的百科全书。但从工作机制看，大模型从来不是传统意义上的知识库。

它更像一个极其强大的“下一个词预测器”。

这句话已经被讲过很多次了，但直到今天，它依然是理解大模型局限性的第一把钥匙。因为这意味着：模型在回答问题时，优化目标并不天然等于“真相优先”，很多时候更接近于“生成一段最像答案的话”。

这两者在大量场景里看起来差不多，但在事实性、唯一答案、需要明确表达不确定性的场景里，差别就会被迅速放大。

于是你会看到一种很典型的现象：

•它知道相关概念；•它也知道上下文大概在说什么；•它还能组织出一段流畅、完整、结构甚至不错的话；•但关键事实就是差了一点，甚至完全错位。

这就是为什么今天很多 AI 错误，不再是“胡说八道式错误”，而是“专业体面式错误”。

它的问题不是完全无知，而是把不确定包装成确定，把高概率包装成真事实。

三、后训练让模型更像助手，但不一定更像知识机器

还有一个经常被忽略的变化，是大模型在后训练阶段经历了大量“产品化塑形”。

我们希望它更有帮助、更礼貌、更像一个顺手的助手，于是有了大量 instruction tuning 、偏好对齐、反馈优化。这个方向并没有问题，甚至可以说是 AI 从实验室走向产品的必经之路。

但副作用也在慢慢显现。

关于 continual fine-tuning 和 catastrophic forgetting 的研究，这两年都在提醒同一个事实：模型在持续微调过程中，确实可能出现遗忘、能力漂移和知识调用路径受扰动的问题。 2025 年延续发表的一项研究就提到，持续 fine-tuning 下， LLM 的知识、推理和阅读理解都会出现不同程度的遗忘，而在一些参数规模区间里，模型越大，遗忘还可能更明显。

这件事如果换成白话，其实很好理解。

你可以把预训练想成“广泛读书”，把后训练想成“职业培训”。职业培训会让一个人更会沟通、更会服务、更懂场景，但如果训练目标过强、过窄，也可能让他在一些原本朴素直接的知识调用上，变得没那么自然。

所以今天大模型的一个真实变化是：它越来越像产品，未必越来越像知识库。

这不是退步，而是取舍。

只是这个取舍，在高频使用时会被用户直观感受到：为什么它越来越会聊天，反而不总能老老实实回答一个简单问题？

四、 2026 年一个很新的发现： AI 可能不是不会，而是“想太多了”

如果说前面的问题还可以归结为“知识调用失真”，那么 2026 年关于推理模型的一些新研究，进一步揭示了另一个更反直觉的现象：大模型开始出现过度思考。

2026 年 4 月的一篇论文《 When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling 》直接研究了这个问题。它关注的是：当我们不断给模型更多 test-time compute ，让它输出更长的思维链时，效果是不是一定更好？

答案是否定的。

论文发现，随着推理 token 增加，收益会明显递减。更关键的是，在某些情况下，模型会出现典型的 overthinking ：它原本已经走在正确答案上，结果越想越偏，最后反而放弃了原本正确的判断。

这太像我们考试时的一种老毛病了。

有些题第一眼选对了，第二眼开始犹豫，第三眼试图“想深一点”，最后把答案改错。今天的大模型，某种程度上也开始表现出这种行为模式。

这背后意味着什么？

意味着今天很多人感受到的“AI 连简单题都不稳”，有时未必是基础知识差，而是强推理能力把简单问题也复杂化了。模型不再只是“想不出来”，它开始出现“想过头”。

这也是为什么未来评价推理模型，不能只看“能不能想得更长”，还得看“知不知道什么时候该停”。

五、幻觉不只是技术问题，可能还是评测机制的问题

如果继续往下看，问题会变得更有意思。

2026 年 Nature 另一篇文章《 Evaluating large language models for accuracy incentivizes hallucinations 》提出了一个很尖锐的观点：今天很多 accuracy 导向的评测方式，本身就在激励模型胡猜。

这篇文章的价值，在于它把“幻觉”从单纯的能力缺陷，往“激励机制缺陷”推进了一步。

逻辑并不复杂。

如果一个评测体系只看答对率，却没有充分奖励“诚实地说不知道”，那么模型的最优策略是什么？往往不是保守，而是尽量多答。

因为不回答，通常拿不到什么；猜对了有收益；猜错了也只是损失一题。于是从优化角度看，模型就会学到一种非常现实的行为：宁可给一个像样的答案，也别轻易承认自己不知道。

这件事一旦说透，很多现象就都能对上了。

为什么我们总觉得 AI“很爱一本正经地胡说”？

因为在很多系统里，它真的没有被很好地训练去珍惜“不知道”这三个字。

所以幻觉不只是技术 bug ，某种程度上还是 KPI bug 。

当行业长期奖励“像知道”，模型就很难自然长成一个“知道什么时候该闭嘴”的系统。

六、还有一个容易被忽略的问题：也许不是模型退步了，而是题库老了

到这里，我们其实还可以再往前走一步。

2025 年有篇论文《 When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation 》讨论了一个很容易被低估的问题：factuality benchmark 本身也会老化。

这篇文章的意思很简单，但影响很大。

现实世界在变，模型在变，可很多事实性 benchmark 是静态的。题目变旧了、背景变了、知识时间戳失效了，但我们还拿这些题库去判断“模型的事实能力到底有没有进步”。结果会怎样？

结果就是：我们以为在测模型，实际上一部分测到的是 benchmark 自己的保鲜期。

这件事对行业判断有个很重要的提醒。

今天谈“大模型是不是越来越不靠谱”，不能只盯着模型本身，也要盯着我们到底在用什么尺子量它。如果尺子过时，那么一些所谓“知识退化”的印象，未必完全来自模型，也可能来自测量失真。

换句话说，不只模型会老， benchmark 也会老。

七、所以今天真正的问题，不只是“知识贫困”，而是“可靠性贫困”

把这几条线索放在一起看，今天的大模型问题，其实已经不太适合只用“知识贫困”来概括了。

更准确的说法可能是三种贫困。

第一，诚实贫困。

它不够愿意说“不知道”，或者说，它还没有被充分奖励去诚实表达不确定性。

第二，稳定性贫困。

同一个问题，换一种问法、换一个上下文、换一个推理长度，答案质量可能就飘了。

第三，可靠性贫困。

它看起来越来越聪明，但在事实、判断和风险边界上，依然没有形成一个足够让人放心的稳定区。

如果一定要给今天的大模型时代下一个判断，我会更倾向于这么说：

AI 最大的问题，已经不只是“知道多少”，而是“知道的时候能不能稳定说对，不知道的时候能不能老实承认” 。

这比“知识贫困”更接近真实，也更接近下一阶段竞争的关键。

结语：下一场竞争，也许不是谁更聪明，而是谁更诚实

过去几年，行业很容易把大模型竞争理解成“谁更强、谁更大、谁更会推理”。这当然重要，而且还会继续重要。

但如果站在用户体验、企业落地和高风险应用的角度看，接下来更关键的问题也许不是谁能把题做得更难，而是谁能把边界说得更清楚。

说白了，未来真正拉开差距的，可能不是“谁更像天才”，而是三件更朴素的事：

•谁更知道什么时候该答；•谁更知道什么时候不该答；•谁更能在不确定时，诚实地把不确定说出来。

大模型的下一场竞争，也许不再只是智力竞赛。

它会越来越像一场可靠性竞赛。

而在那之前，我们最好先承认一个现实：

AI 最危险的地方，往往不是无知，而是假装知道。