GPT-5.4 震撼发布！原生操控电脑+专业任务吊打，完虐 Claude Opus4.6OpenAI 最新模型 GPT-

OpenAI 最新模型 GPT-5.4 全量推送了

OpenAI 最新模型 GPT-5.4 全量推送了。作者也第一时间进行了测试，从基准到真实任务跑下来，效果确实震撼。这已经不是单纯的聊天模型升级，而是 AI 真正开始“自己动手”操作电脑了。

GPT-5.4 不再是只会聊天的工具，它现在能真正代表你操作电脑、操作浏览器、写代码、调API、处理复杂工作。
OpenAI 自己都说，这是他们 首个具备原生计算机使用能力的模型。

数学 + 代理能力全面起飞，OpenAI 奔着 AI Agent 去的

在这里插入图片描述

一看这个表格就懂了：

OSWorld-Verified

（电脑使用基准）
GPT-5.4 Thinking 直接 75.0% ，超人类水平（人类 72.7%），比上一代 GPT-5.2 的 47.3% 暴涨！

BrowseComp

（代理浏览）
89.3%（Pro版） ，碾压 Claude Opus 4.6 的 84.0% 。

Toolathlon

（工具调用）
54.6% ，领先一截。

这说明啥？

OpenAI 这次重心根本不是“聊天更聪明”，而是把 AI 打造成能自己操控电脑的自主代理。

数学能力也被高度重视——因为 数学是科学推理的基础，可能是通往 AGI 的关键路径。
OpenAI 在这上面砸了很多资源，效果肉眼可见。

Vibe Code Bench 夺冠，从 0 到 1 建完整 Web App 牛到离谱

Vals AI 的 Vibe Code Bench v1.1 超级硬核：

只给一段短描述，模型必须 从零独立搞出前后端 + 可运行的网络应用
（不是写几个函数那么简单）。

GPT-5.4 直接 67.42% 登顶，比上一代 SOTA 高了 5.7 个百分点！

最大突破在于 自我验证能力：

它会主动用浏览器打开自己生成的网页，自测功能。

结果就是：

满分案例暴增
彻底翻车的案例锐减

以前模型写完代码经常跑不通，现在 基本能一次过审。

FrontierMath 创纪录，Tier 4 难题它居然解了

Epoch AI 的 FrontierMath 是目前最难的数学基准，包含大量 未解研究级难题。

GPT-5.4 Pro 表现：

Tiers 1-3：50%
Tier 4（最高难度）：38%

直接刷新纪录。

最牛的一点：

它 解决了一个此前所有模型都没碰过的 Tier 4 问题。

更离谱的是：

它通过挖到 一个 2011 年的预印本（preprint） ，
大幅简化了证明过程。

甚至 连出题作者都不知道这个论文存在……

这已经不是“聪明”，而是 “会研究”了。

最大意义：迈向真正自主智能体

OpenAI 官方直言：

GPT-5.4 可以编写代码来操作你的电脑，根据屏幕截图发出键盘和鼠标指令。

能力包括：

浏览器操作

大幅改进：

点哪哪准
滚动顺滑
填表下载一气呵成

工具 / API 调用

更加精准高效：

多轮搜索
大海捞针
最后给出论证充分的答案

跨应用任务

可以：

收集多源信息
综合分析
长时间持续执行任务

持久性强到可怕。

这意味着什么？

未来的 AI 形态很可能是：

你早上醒来，它自动 打开电脑
查邮件、整理日程、生成报告
写代码时，它 直接在你屏幕上调试运行
网购、订票、管财务……

全部都能 代理完成。

这已经不是助手，而是：

能自主规划、执行、迭代的 “AI 同事”

AGI 的影子，真的越来越清晰了。

当然，也不是完美无缺（真实反馈）

目前也存在一些不足：

前端 / UI 设计 和格式美观仍然弱于 Claude Opus 4.6
Thinking / Pro 高推理模式速度偏慢
超复杂任务偶尔会卡顿
长上下文偶尔丢细节
创意写作稳定性 不如专门模型
Pro 版价格较高，普通用户可能先观望

你已经上手 GPT-5.4 了吗？

最想让它 帮你干啥？

欢迎在评论区讨论 👇

点个赞呗，咱们一起见证 AI 彻底变天的这一刻！🚀

# AI作画