昨晚,OpenAI 扔了个重磅炸弹——GPT-5 正式发布了。
不是预告,不是内测,是直接上线。Sam Altman 在发布会现场演示了一个法语学习游戏网站,几秒钟,几百行代码,直接跑起来。
最炸裂的数据:
- 编码能力从 33.2% 飙升到 74.9%,提升 126%
- 上下文长度从 128K 扩展到 100 万 token,提升 8 倍
- 幻觉率比 GPT-4o 低 45%,比 o3 低 80%
- 工具调用容错率 96.7%
Sam Altman 直接把 GPT-4o 比作"中学生",GPT-5 则是"博士级别专家"。
这波不是小版本迭代,是真·代际跨越。
核心突破:这 5 个变化够硬核
1. System 思维:快思考 + 慢思考
这是 GPT-5 最大的升级。
以前的 GPT,不管问什么,都是秒回。简单问题秒回没问题,复杂问题也秒回,就容易翻车。
GPT-5 不一样了:
- 简单任务:快速响应,跟 GPT-4o 一样
- 复杂任务:自动切换到"深度思考"模式,类似 OpenAI o3 的推理能力
最重要的是:你不用手动选模型了,GPT-5 会自己判断。
问"今天天气"它秒回,问"帮我设计一个实验方案"它会慢下来,给你一个靠谱的答案。
这就是人类思维的"双系统"——快思考 + 慢思考。
2. 原生多模态:文本、图像、音频、视频一把抓
GPT-4o 的多模态是"拼上去的",GPT-5 是原生的。
这意味着什么?
- 扔给它一张医疗影像,它能诊断
- 扔给它一张工业设计图,它能分析
- 扔给它一段视频,它能理解
这才是真正的"全能"。
3. 100 万 token 上下文:一本书随便塞
GPT-4o 的上下文是 128K token,大概能塞一本书的十分之一。
GPT-5 直接拉到 100 万 token。
这什么概念?
- 整个代码库丢进去,它能记住所有细节
- 几百页的法律文档,它能全文理解
- 长周期的任务,它能从头到尾保持一致
以前:你问 GPT-4o "我之前说过什么",它大概率忘了。
现在:GPT-5 能记住整个对话,甚至整个项目的上下文。
4. 原生计算机使用能力:自己操作电脑
这是 GPT-5.4 的独门绝技。
它能做什么?
- 看着屏幕,自己操作键盘鼠标
- 跨软件完成任务(比如:从 Excel 读数据 → 在浏览器搜索 → 把结果写进 Word)
- 调用工具和 API,全自动
以前:你得告诉 AI 怎么做,一步步引导。
现在:给它一个目标,它自己想办法完成。
这才是 Agent 应该有的样子。
5. 极低幻觉率:比 GPT-4o 低 45%,比 o3 低 80%
"幻觉"是大模型的老毛病——一本正经地胡说八道。
GPT-5 把这个问题解决了一大半:
- 联网搜索时:幻觉率比 GPT-4o 低 45%
- 独立思考时:幻觉率比 o3 低 80%
更关键的是,GPT-5 变"诚实"了。以前问它不懂的问题,它会硬编一个答案。现在它会直接说"我不确定"。
GPT-5 vs GPT-4o:差距有多大?
直接看表:
| 维度 | GPT-4o | GPT-5 | 提升幅度 |
|---|---|---|---|
| 编码能力 | 33.2% | 74.9% | +126% |
| 上下文长度 | 128K token | 1M token | +800% |
| 幻觉率 | 基准 | 比 GPT-4o 低 45% | 显著降低 |
| 推理模式 | 单一快思考 | 快思考 + 慢思考 | 代际升级 |
| 计算机使用 | 不支持 | 原生支持 | 从无到有 |
| 多模态 | 支持 | 原生支持 | 架构重构 |
一句话总结:这不是升级,是换赛道。
实际应用:这东西能干啥?
场景 1:超级软件工程师
发布会现场演示:几秒钟,几百行代码,一个交互式网站直接跑起来。
更硬核的是:
- SWE-bench Verified 成绩 75%(GPT-4o 只有 33.2%)
- 能处理整个代码库(100 万 token 上下文)
- 支持长周期开发(调试、测试、优化一条龙)
以前:你让 AI 写代码,它给你一堆 bug。
现在:GPT-5 能自己测试、自己调试、自己优化。
场景 2:科学研究加速器
它能做什么?
- 生成科学假设
- 设计实验方案
- 分析医疗影像
- 解读工业设计图
Sam Altman 直接说:"这是世界上医疗领域最强的模型。"
场景 3:企业决策大脑
原生计算机使用能力让 GPT-5 成了真正的"智能员工":
- 从数据库读报表
- 在网上查竞品信息
- 把分析结果写进文档
- 全程自动化
以前:你得雇 3 个人干这活。
现在:GPT-5 一小时搞定。
场景 4:个人全能助理
教育:根据你的学习进度定制计划
法律:快速梳理法律条文和案例
创意:帮你写文章、做设计、搞音乐
还有个有趣的"人格模式":犬儒、机器人、倾听者、学霸,四种性格随便选。
定价:多少钱能玩?
ChatGPT 订阅
| 层级 | 月费 | 使用额度 | 核心功能 |
|---|---|---|---|
| Free | 免费 | 每日有限额 | GPT-4o mini,功能受限 |
| Plus | $20/月 | 每 3 小时约 40 条 | 完整 GPT-4o,支持插件、代码解释器 |
| Pro | $200/月 | 无限制 | 完整 GPT-5,最高优先级,企业级支持 |
API 定价
| 模型规格 | 输入(每百万 token) | 输出(每百万 token) | 适用场景 |
|---|---|---|---|
| GPT-5 Full | $1.25 | $10.00 | 复杂推理、专业任务 |
| GPT-5 Mini | $0.25 | $2.00 | 中等复杂度任务 |
| GPT-5 Nano | $0.05 | $0.40 | 简单任务、高频调用 |
选择建议
个人用户:从 Free 开始,不够用就升级 Plus。月 API 成本超过 $20,直接用 Plus 更划算。
开发者:根据调用量选 API。简单任务用 Nano,复杂推理用 Full。
企业用户:Pro 订阅无限制,月 API 成本超过 $200 就回本了。
写在最后
GPT-5 不是 AGI,但它离 AGI 更近了一步。
Sam Altman 说它是"AGI 的种子"——具备了通用智能的基础,但还缺一些关键能力。
我的判断:
- 程序员:短期内不会失业,但"写代码"这活确实能自动化了
- 企业:能干掉大量重复性工作,决策效率提升 10 倍
- 个人:用好 GPT-5,相当于给自己配了个博士级助理
最重要的问题:GPT-5 能帮你解决什么问题?
别上来就问"怎么用",先想清楚"要解决什么"。
工具再强,不会用也是摆设。
你准备试试 GPT-5 吗?最想用它来做什么?评论区聊聊。
我在持续记录 AI Agent 实战开发和行业判断,感兴趣的话搜一下微信公众号:码农的AI客栈,欢迎交流 🍺