炸了!GPT-5 正式发布:编码能力提升 126%,AGI 真的来了?昨晚,OpenAI 扔了个重磅炸弹——GPT-5

昨晚,OpenAI 扔了个重磅炸弹——GPT-5 正式发布了。

不是预告,不是内测,是直接上线。Sam Altman 在发布会现场演示了一个法语学习游戏网站,几秒钟,几百行代码,直接跑起来。

最炸裂的数据:

编码能力从 33.2% 飙升到 74.9%,提升 126%
上下文长度从 128K 扩展到 100 万 token,提升 8 倍
幻觉率比 GPT-4o 低 45%,比 o3 低 80%
工具调用容错率 96.7%

Sam Altman 直接把 GPT-4o 比作"中学生",GPT-5 则是"博士级别专家"。

这波不是小版本迭代,是真·代际跨越。

核心突破:这 5 个变化够硬核

1. System 思维:快思考 + 慢思考

这是 GPT-5 最大的升级。

以前的 GPT,不管问什么,都是秒回。简单问题秒回没问题,复杂问题也秒回,就容易翻车。

GPT-5 不一样了:

简单任务:快速响应,跟 GPT-4o 一样
复杂任务:自动切换到"深度思考"模式,类似 OpenAI o3 的推理能力

最重要的是:你不用手动选模型了,GPT-5 会自己判断。

问"今天天气"它秒回,问"帮我设计一个实验方案"它会慢下来,给你一个靠谱的答案。

这就是人类思维的"双系统"——快思考 + 慢思考。

2. 原生多模态:文本、图像、音频、视频一把抓

GPT-4o 的多模态是"拼上去的",GPT-5 是原生的。

这意味着什么?

扔给它一张医疗影像,它能诊断
扔给它一张工业设计图,它能分析
扔给它一段视频,它能理解

这才是真正的"全能"。

3. 100 万 token 上下文:一本书随便塞

GPT-4o 的上下文是 128K token,大概能塞一本书的十分之一。

GPT-5 直接拉到 100 万 token。

这什么概念?

整个代码库丢进去,它能记住所有细节
几百页的法律文档,它能全文理解
长周期的任务,它能从头到尾保持一致

以前:你问 GPT-4o "我之前说过什么",它大概率忘了。

现在:GPT-5 能记住整个对话,甚至整个项目的上下文。

4. 原生计算机使用能力:自己操作电脑

这是 GPT-5.4 的独门绝技。

它能做什么?

看着屏幕,自己操作键盘鼠标
跨软件完成任务(比如:从 Excel 读数据 → 在浏览器搜索 → 把结果写进 Word)
调用工具和 API,全自动

以前:你得告诉 AI 怎么做,一步步引导。

现在:给它一个目标,它自己想办法完成。

这才是 Agent 应该有的样子。

5. 极低幻觉率:比 GPT-4o 低 45%,比 o3 低 80%

"幻觉"是大模型的老毛病——一本正经地胡说八道。

GPT-5 把这个问题解决了一大半:

联网搜索时:幻觉率比 GPT-4o 低 45%
独立思考时:幻觉率比 o3 低 80%

更关键的是,GPT-5 变"诚实"了。以前问它不懂的问题,它会硬编一个答案。现在它会直接说"我不确定"。

GPT-5 vs GPT-4o:差距有多大?

直接看表:

维度	GPT-4o	GPT-5	提升幅度
编码能力	33.2%	74.9%	+126%
上下文长度	128K token	1M token	+800%
幻觉率	基准	比 GPT-4o 低 45%	显著降低
推理模式	单一快思考	快思考 + 慢思考	代际升级
计算机使用	不支持	原生支持	从无到有
多模态	支持	原生支持	架构重构

一句话总结:这不是升级,是换赛道。

实际应用:这东西能干啥?

场景 1:超级软件工程师

发布会现场演示:几秒钟,几百行代码,一个交互式网站直接跑起来。

更硬核的是:

SWE-bench Verified 成绩 75%(GPT-4o 只有 33.2%)
能处理整个代码库(100 万 token 上下文)
支持长周期开发(调试、测试、优化一条龙)

以前:你让 AI 写代码,它给你一堆 bug。

现在:GPT-5 能自己测试、自己调试、自己优化。

场景 2:科学研究加速器

它能做什么?

生成科学假设
设计实验方案
分析医疗影像
解读工业设计图

Sam Altman 直接说:"这是世界上医疗领域最强的模型。"

场景 3:企业决策大脑

原生计算机使用能力让 GPT-5 成了真正的"智能员工":

从数据库读报表
在网上查竞品信息
把分析结果写进文档
全程自动化

以前:你得雇 3 个人干这活。

现在:GPT-5 一小时搞定。

场景 4:个人全能助理

教育:根据你的学习进度定制计划

法律:快速梳理法律条文和案例

创意:帮你写文章、做设计、搞音乐

还有个有趣的"人格模式":犬儒、机器人、倾听者、学霸,四种性格随便选。

定价:多少钱能玩?

ChatGPT 订阅

层级	月费	使用额度	核心功能
Free	免费	每日有限额	GPT-4o mini,功能受限
Plus	$20/月	每 3 小时约 40 条	完整 GPT-4o,支持插件、代码解释器
Pro	$200/月	无限制	完整 GPT-5,最高优先级,企业级支持

API 定价

模型规格	输入(每百万 token)	输出(每百万 token)	适用场景
GPT-5 Full	$1.25	$10.00	复杂推理、专业任务
GPT-5 Mini	$0.25	$2.00	中等复杂度任务
GPT-5 Nano	$0.05	$0.40	简单任务、高频调用

选择建议

个人用户:从 Free 开始,不够用就升级 Plus。月 API 成本超过 $20,直接用 Plus 更划算。

开发者:根据调用量选 API。简单任务用 Nano,复杂推理用 Full。

企业用户:Pro 订阅无限制,月 API 成本超过 $200 就回本了。

写在最后

GPT-5 不是 AGI,但它离 AGI 更近了一步。

Sam Altman 说它是"AGI 的种子"——具备了通用智能的基础,但还缺一些关键能力。

我的判断:

程序员:短期内不会失业,但"写代码"这活确实能自动化了
企业:能干掉大量重复性工作,决策效率提升 10 倍
个人:用好 GPT-5,相当于给自己配了个博士级助理

最重要的问题:GPT-5 能帮你解决什么问题?

别上来就问"怎么用",先想清楚"要解决什么"。

工具再强,不会用也是摆设。

你准备试试 GPT-5 吗?最想用它来做什么?评论区聊聊。

我在持续记录 AI Agent 实战开发和行业判断，感兴趣的话搜一下微信公众号：码农的AI客栈，欢迎交流 🍺