炸了!GPT-5 正式发布:编码能力提升 126%,AGI 真的来了?

42 阅读5分钟

昨晚,OpenAI 扔了个重磅炸弹——GPT-5 正式发布了。

不是预告,不是内测,是直接上线。Sam Altman 在发布会现场演示了一个法语学习游戏网站,几秒钟,几百行代码,直接跑起来。

最炸裂的数据:

  • 编码能力从 33.2% 飙升到 74.9%,提升 126%
  • 上下文长度从 128K 扩展到 100 万 token,提升 8 倍
  • 幻觉率比 GPT-4o 低 45%,比 o3 低 80%
  • 工具调用容错率 96.7%

Sam Altman 直接把 GPT-4o 比作"中学生",GPT-5 则是"博士级别专家"。

这波不是小版本迭代,是真·代际跨越。


核心突破:这 5 个变化够硬核

1. System 思维:快思考 + 慢思考

这是 GPT-5 最大的升级。

以前的 GPT,不管问什么,都是秒回。简单问题秒回没问题,复杂问题也秒回,就容易翻车。

GPT-5 不一样了:

  • 简单任务:快速响应,跟 GPT-4o 一样
  • 复杂任务:自动切换到"深度思考"模式,类似 OpenAI o3 的推理能力

最重要的是:你不用手动选模型了,GPT-5 会自己判断。

问"今天天气"它秒回,问"帮我设计一个实验方案"它会慢下来,给你一个靠谱的答案。

这就是人类思维的"双系统"——快思考 + 慢思考。

2. 原生多模态:文本、图像、音频、视频一把抓

GPT-4o 的多模态是"拼上去的",GPT-5 是原生的。

这意味着什么?

  • 扔给它一张医疗影像,它能诊断
  • 扔给它一张工业设计图,它能分析
  • 扔给它一段视频,它能理解

这才是真正的"全能"。

3. 100 万 token 上下文:一本书随便塞

GPT-4o 的上下文是 128K token,大概能塞一本书的十分之一。

GPT-5 直接拉到 100 万 token

这什么概念?

  • 整个代码库丢进去,它能记住所有细节
  • 几百页的法律文档,它能全文理解
  • 长周期的任务,它能从头到尾保持一致

以前:你问 GPT-4o "我之前说过什么",它大概率忘了。

现在:GPT-5 能记住整个对话,甚至整个项目的上下文。

4. 原生计算机使用能力:自己操作电脑

这是 GPT-5.4 的独门绝技。

它能做什么?

  • 看着屏幕,自己操作键盘鼠标
  • 跨软件完成任务(比如:从 Excel 读数据 → 在浏览器搜索 → 把结果写进 Word)
  • 调用工具和 API,全自动

以前:你得告诉 AI 怎么做,一步步引导。

现在:给它一个目标,它自己想办法完成。

这才是 Agent 应该有的样子。

5. 极低幻觉率:比 GPT-4o 低 45%,比 o3 低 80%

"幻觉"是大模型的老毛病——一本正经地胡说八道。

GPT-5 把这个问题解决了一大半:

  • 联网搜索时:幻觉率比 GPT-4o 低 45%
  • 独立思考时:幻觉率比 o3 低 80%

更关键的是,GPT-5 变"诚实"了。以前问它不懂的问题,它会硬编一个答案。现在它会直接说"我不确定"。


GPT-5 vs GPT-4o:差距有多大?

直接看表:

维度GPT-4oGPT-5提升幅度
编码能力33.2%74.9%+126%
上下文长度128K token1M token+800%
幻觉率基准比 GPT-4o 低 45%显著降低
推理模式单一快思考快思考 + 慢思考代际升级
计算机使用不支持原生支持从无到有
多模态支持原生支持架构重构

一句话总结:这不是升级,是换赛道。


实际应用:这东西能干啥?

场景 1:超级软件工程师

发布会现场演示:几秒钟,几百行代码,一个交互式网站直接跑起来。

更硬核的是:

  • SWE-bench Verified 成绩 75%(GPT-4o 只有 33.2%)
  • 能处理整个代码库(100 万 token 上下文)
  • 支持长周期开发(调试、测试、优化一条龙)

以前:你让 AI 写代码,它给你一堆 bug。

现在:GPT-5 能自己测试、自己调试、自己优化。

场景 2:科学研究加速器

它能做什么?

  • 生成科学假设
  • 设计实验方案
  • 分析医疗影像
  • 解读工业设计图

Sam Altman 直接说:"这是世界上医疗领域最强的模型。"

场景 3:企业决策大脑

原生计算机使用能力让 GPT-5 成了真正的"智能员工":

  • 从数据库读报表
  • 在网上查竞品信息
  • 把分析结果写进文档
  • 全程自动化

以前:你得雇 3 个人干这活。

现在:GPT-5 一小时搞定。

场景 4:个人全能助理

教育:根据你的学习进度定制计划

法律:快速梳理法律条文和案例

创意:帮你写文章、做设计、搞音乐

还有个有趣的"人格模式":犬儒、机器人、倾听者、学霸,四种性格随便选。


定价:多少钱能玩?

ChatGPT 订阅

层级月费使用额度核心功能
Free免费每日有限额GPT-4o mini,功能受限
Plus$20/月每 3 小时约 40 条完整 GPT-4o,支持插件、代码解释器
Pro$200/月无限制完整 GPT-5,最高优先级,企业级支持

API 定价

模型规格输入(每百万 token)输出(每百万 token)适用场景
GPT-5 Full$1.25$10.00复杂推理、专业任务
GPT-5 Mini$0.25$2.00中等复杂度任务
GPT-5 Nano$0.05$0.40简单任务、高频调用

选择建议

个人用户:从 Free 开始,不够用就升级 Plus。月 API 成本超过 $20,直接用 Plus 更划算。

开发者:根据调用量选 API。简单任务用 Nano,复杂推理用 Full。

企业用户:Pro 订阅无限制,月 API 成本超过 $200 就回本了。


写在最后

GPT-5 不是 AGI,但它离 AGI 更近了一步。

Sam Altman 说它是"AGI 的种子"——具备了通用智能的基础,但还缺一些关键能力。

我的判断:

  • 程序员:短期内不会失业,但"写代码"这活确实能自动化了
  • 企业:能干掉大量重复性工作,决策效率提升 10 倍
  • 个人:用好 GPT-5,相当于给自己配了个博士级助理

最重要的问题:GPT-5 能帮你解决什么问题?

别上来就问"怎么用",先想清楚"要解决什么"。

工具再强,不会用也是摆设。


你准备试试 GPT-5 吗?最想用它来做什么?评论区聊聊。

我在持续记录 AI Agent 实战开发和行业判断,感兴趣的话搜一下微信公众号:码农的AI客栈,欢迎交流 🍺