OpenAI 的 GPT-5 已经发布。
我可以用一段话总结 GPT-5 的主要改进:它价格低廉,有时速度很快,而且所有人都能用(大多数人还认为 GPT-4o 是最先进的);它在各项基准测试中表现更优,主导了性价比帕雷托前沿(不过有些人认为这次升级不够惊艳,尤其是和 Anthropic 的 Claude 4/4.1 模型相比);它通过内部为你选择模型(随意选择)简化了产品供应;它具备更出色的工具使用能力,这带来了更好的 agentic 行为(包括研究方面);它是世界上最擅长编码的模型(这是帮助 OpenAI 开发者更快构建 GPT-6 的关键);它仍然没有通过 ARC-AGI 2 测试;在创意写作方面仍然很糟糕。
就是这些。这些都是我从所查阅的资料(所有资料)中得到的信息。然而,还有一件事没人强调——这也是 OpenAI 的一个胜利——而这件事在我看来是 GPT-5 带来的最重要的改进:大幅降低了幻觉和欺骗的发生率。
我们认为,GPT-4.5 在商业上失败了,但在技术上并非如此;缩放定律的收益在递减,但并未停止;OpenAI 并未落后,其收入和增长都在飙升——之后,我亮出了自己的论点:AI 实验室过于专注于提高能力的上限(例如,超人类智能、博士级知识、agentic 行为),而太少关注提高能力的下限(例如,求你了,别搞砸这个儿童谜题;求你了,别骗我;求你了,别编造信息然后隐藏线索,导致我浪费了好几个小时的工作;还有,求你了,千万千万别把我问的每个问题都捧为人类诞生以来最好的问题)。
我认为 AI 实验室之所以这样做,原因有二:1)他们期望提高上限会带动下限的提高;2)他们自己不知道该如何提高下限。AI 太怪异了,这使得填补那些看似容易填补的空白变得困难。更重要的是,我认为很多用户对模型迭代带来的提升并不在意,因为他们只关心下限是否提高。一句话:如果 AI 总是在编造东西,没人会在乎它有多聪明。而且我们认为:为了让幻觉率降为零,人们愿意付两倍的价钱。不知怎的,OpenAI 做到了。
幻觉率目前还没有降到0%——而且可能永远也到不了0%——但值得高兴的是,在典型对话中,GPT-5的幻觉率比GPT-4o低44%(11.6% vs 20.6%),在思考过程中比o3低78%(4.8% vs 22%)(在“复杂、开放式、事实探索类提示词”中,比如LongFact和FActScore评估中的那些,这一比例甚至更低,某些情况下低于1%)。以下是相关图表:
欺骗率(比如,声称自己能做实际上做不到的事)也是如此:在标准的ChatGPT对话中,欺骗率从o3的4.8%降至GPT-5的2.1%:
我觉得很有意思的是,在我看来这是一次成功的发布(只要这些结果能如实反映在7亿用户的日常使用中),但AI社区却认为它令人失望。我的总体看法简洁明了:提高AI能力的下限——减少编造内容和谎言——总归是件好事。总之,一定要亲自试试;你的ChatGPT应用里应该已经能用到它了。就说这么多吧!
===