OpenAI 最新模型 GPT-5.4 全量推送了
OpenAI 最新模型 GPT-5.4 全量推送了。作者也第一时间进行了测试,从基准到真实任务跑下来,效果确实震撼。这已经不是单纯的聊天模型升级,而是 AI 真正开始“自己动手”操作电脑了。
GPT-5.4 不再是只会聊天的工具,它现在能真正代表你操作电脑、操作浏览器、写代码、调API、处理复杂工作。
OpenAI 自己都说,这是他们 首个具备原生计算机使用能力的模型。
数学 + 代理能力全面起飞,OpenAI 奔着 AI Agent 去的
一看这个表格就懂了:
OSWorld-Verified
(电脑使用基准)
GPT-5.4 Thinking 直接 75.0% ,超人类水平(人类 72.7%),比上一代 GPT-5.2 的 47.3% 暴涨!
BrowseComp
(代理浏览)
89.3%(Pro版) ,碾压 Claude Opus 4.6 的 84.0% 。
Toolathlon
(工具调用)
54.6% ,领先一截。
这说明啥?
OpenAI 这次重心根本不是“聊天更聪明”,而是把 AI 打造成能自己操控电脑的自主代理。
数学能力也被高度重视——因为 数学是科学推理的基础,可能是通往 AGI 的关键路径。
OpenAI 在这上面砸了很多资源,效果肉眼可见。
Vibe Code Bench 夺冠,从 0 到 1 建完整 Web App 牛到离谱
Vals AI 的 Vibe Code Bench v1.1 超级硬核:
只给一段短描述,模型必须 从零独立搞出前后端 + 可运行的网络应用
(不是写几个函数那么简单)。
GPT-5.4 直接 67.42% 登顶,比上一代 SOTA 高了 5.7 个百分点!
最大突破在于 自我验证能力:
它会主动用浏览器打开自己生成的网页,自测功能。
结果就是:
- 满分案例暴增
- 彻底翻车的案例锐减
以前模型写完代码经常跑不通,现在 基本能一次过审。
FrontierMath 创纪录,Tier 4 难题它居然解了
Epoch AI 的 FrontierMath 是目前最难的数学基准,包含大量 未解研究级难题。
GPT-5.4 Pro 表现:
- Tiers 1-3:50%
- Tier 4(最高难度):38%
直接刷新纪录。
最牛的一点:
它 解决了一个此前所有模型都没碰过的 Tier 4 问题。
更离谱的是:
它通过挖到 一个 2011 年的预印本(preprint) ,
大幅简化了证明过程。
甚至 连出题作者都不知道这个论文存在……
这已经不是“聪明”,而是 “会研究”了。
最大意义:迈向真正自主智能体
OpenAI 官方直言:
GPT-5.4 可以编写代码来操作你的电脑,根据屏幕截图发出键盘和鼠标指令。
能力包括:
浏览器操作
大幅改进:
- 点哪哪准
- 滚动顺滑
- 填表下载一气呵成
工具 / API 调用
更加精准高效:
- 多轮搜索
- 大海捞针
- 最后给出论证充分的答案
跨应用任务
可以:
- 收集多源信息
- 综合分析
- 长时间持续执行任务
持久性强到可怕。
这意味着什么?
未来的 AI 形态很可能是:
- 你早上醒来,它自动 打开电脑
- 查邮件、整理日程、生成报告
- 写代码时,它 直接在你屏幕上调试运行
- 网购、订票、管财务……
全部都能 代理完成。
这已经不是助手,而是:
能自主规划、执行、迭代的 “AI 同事”
AGI 的影子,真的越来越清晰了。
当然,也不是完美无缺(真实反馈)
目前也存在一些不足:
- 前端 / UI 设计 和格式美观仍然弱于 Claude Opus 4.6
- Thinking / Pro 高推理模式速度偏慢
- 超复杂任务偶尔会卡顿
- 长上下文偶尔丢细节
- 创意写作稳定性 不如专门模型
- Pro 版价格较高,普通用户可能先观望
你已经上手 GPT-5.4 了吗?
最想让它 帮你干啥?
欢迎在评论区讨论 👇
点个赞呗,咱们一起见证 AI 彻底变天的这一刻!🚀