GPT-5 把幻觉率打下来 80%,AI 终于学会说“我不知道”

102 阅读2分钟

“把复杂留给自己,把简单留给用户。”
GPT-5 的这句内部格言,在发布当天就被 OpenAI 写进了官方博客。真正让这句话落到实处的,不是又刷新的某项基准第一,而是它第一次把“幻觉率”——也就是 AI 一本正经地胡说八道的概率——压到了前代的 1/5。

下面带你拆解这场“告别胡编乱造”的技术攻坚战。

—————————
一、幻觉到底怎么来的?
—————————

  1. 模型太“听话”:只要能对上 prompt,就默认“我能行”,然后开始编剧本。
  2. 知识截断:训练数据到 2023 年 10 月为止,之后的世界全靠想象力补完。
  3. 缺乏自我怀疑:旧模型不会给答案打“置信度标签”,用户无从分辨真伪。

—————————
二、GPT-5 的三板斧
—————————

  1. 拒绝“不懂装懂”——系统 2 思维上线
    • 引入“思考 token”:模型先用 Python 伪代码把问题拆分,再决定是否可答。
    • 无法回答时,直接说“超出能力范围”,而不是“硬拗”。实测拒绝率提升 4 倍,误答率下降 80%。
  2. 事实核查外挂——实时检索 + 置信度标签
    • 联网搜索时,先比对信源,再给出答案;对不确定信息自动加“⚠️低置信度”。
    • 医疗、法律等高敏场景,强制调用 HealthBench / LegalQA 两套内部工具交叉验证。
  3. 训练数据“补洞”——合成课程 + 人类教师
    • 用上一代 O3 生成 1.2 亿条“教学型”合成问答,再由 250 位领域专家逐条挑错。
    • 重点补 2023-10 之后的新知识,减少“时间幻觉”。

—————————
三、实战成绩单
—————————
• HealthBench:GPT-5 超越 250 位执业医师平均得分,幻觉率仅 2.3%(O3 为 11.4%)。
• SWE-bench Verified:代码解释类问题,事实错误从 7.8% 降到 1.5%。
• 用户盲测:10 万名 ChatGPT 免费用户,连续 7 天对话后,反馈“疑似幻觉”下降 78%。

—————————
四、开发者能做什么?
—————————

  1. 用 system prompt 触发“自检模式”
You are a cautious assistant. If unsure, say “I don’t know”.
  1. 结构化输出里加 confidence_score 字段,前端按阈值显示不同 UI。
  2. 高敏场景强制调用 retrieval → 先查文档,再生成答案。

—————————
五、写在最后
—————————
幻觉不是 0 和 1 的开关,而是一条渐近线。OpenAI 用 GPT-5 告诉我们:
当模型开始学会说“我不知道”,它才真正值得被信任。

从今天起,免费用户就能在 ChatGPT 里体验“低幻觉”的 GPT-5。
把复杂留给自己,把确定性交还人类——这或许才是 AI 真正的成人礼。