GPT-5 来了：仅仅这一个功能值得大书特书OpenAI 的 GPT-5 已经发布。我可以用一段话总结 GPT-5 的

OpenAI 的 GPT-5 已经发布。

我可以用一段话总结 GPT-5 的主要改进：它价格低廉，有时速度很快，而且所有人都能用（大多数人还认为 GPT-4o 是最先进的）；它在各项基准测试中表现更优，主导了性价比帕雷托前沿（不过有些人认为这次升级不够惊艳，尤其是和 Anthropic 的 Claude 4/4.1 模型相比）；它通过内部为你选择模型（随意选择）简化了产品供应；它具备更出色的工具使用能力，这带来了更好的 agentic 行为（包括研究方面）；它是世界上最擅长编码的模型（这是帮助 OpenAI 开发者更快构建 GPT-6 的关键）；它仍然没有通过 ARC-AGI 2 测试；在创意写作方面仍然很糟糕。

就是这些。这些都是我从所查阅的资料（所有资料）中得到的信息。然而，还有一件事没人强调——这也是 OpenAI 的一个胜利——而这件事在我看来是 GPT-5 带来的最重要的改进：大幅降低了幻觉和欺骗的发生率。

我们认为，GPT-4.5 在商业上失败了，但在技术上并非如此；缩放定律的收益在递减，但并未停止；OpenAI 并未落后，其收入和增长都在飙升——之后，我亮出了自己的论点：AI 实验室过于专注于提高能力的上限（例如，超人类智能、博士级知识、agentic 行为），而太少关注提高能力的下限（例如，求你了，别搞砸这个儿童谜题；求你了，别骗我；求你了，别编造信息然后隐藏线索，导致我浪费了好几个小时的工作；还有，求你了，千万千万别把我问的每个问题都捧为人类诞生以来最好的问题）。

我认为 AI 实验室之所以这样做，原因有二：1）他们期望提高上限会带动下限的提高；2）他们自己不知道该如何提高下限。AI 太怪异了，这使得填补那些看似容易填补的空白变得困难。更重要的是，我认为很多用户对模型迭代带来的提升并不在意，因为他们只关心下限是否提高。一句话：如果 AI 总是在编造东西，没人会在乎它有多聪明。而且我们认为：为了让幻觉率降为零，人们愿意付两倍的价钱。不知怎的，OpenAI 做到了。

幻觉率目前还没有降到0%——而且可能永远也到不了0%——但值得高兴的是，在典型对话中，GPT-5的幻觉率比GPT-4o低44%（11.6% vs 20.6%），在思考过程中比o3低78%（4.8% vs 22%）（在“复杂、开放式、事实探索类提示词”中，比如LongFact和FActScore评估中的那些，这一比例甚至更低，某些情况下低于1%）。以下是相关图表：

欺骗率（比如，声称自己能做实际上做不到的事）也是如此：在标准的ChatGPT对话中，欺骗率从o3的4.8%降至GPT-5的2.1%：

我觉得很有意思的是，在我看来这是一次成功的发布（只要这些结果能如实反映在7亿用户的日常使用中），但AI社区却认为它令人失望。我的总体看法简洁明了：提高AI能力的下限——减少编造内容和谎言——总归是件好事。总之，一定要亲自试试；你的ChatGPT应用里应该已经能用到它了。就说这么多吧！

===