GPT-5.4 震撼发布!原生操控电脑+专业任务吊打,完虐 Claude Opus4.6

0 阅读3分钟

OpenAI 最新模型 GPT-5.4 全量推送了

OpenAI 最新模型 GPT-5.4 全量推送了。作者也第一时间进行了测试,从基准到真实任务跑下来,效果确实震撼。这已经不是单纯的聊天模型升级,而是 AI 真正开始“自己动手”操作电脑了

GPT-5.4 不再是只会聊天的工具,它现在能真正代表你操作电脑、操作浏览器、写代码、调API、处理复杂工作。
OpenAI 自己都说,这是他们 首个具备原生计算机使用能力的模型


数学 + 代理能力全面起飞,OpenAI 奔着 AI Agent 去的

在这里插入图片描述

一看这个表格就懂了:

OSWorld-Verified

(电脑使用基准)
GPT-5.4 Thinking 直接 75.0% ,超人类水平(人类 72.7%),比上一代 GPT-5.2 的 47.3% 暴涨!

BrowseComp

(代理浏览)
89.3%(Pro版) ,碾压 Claude Opus 4.6 的 84.0%

Toolathlon

(工具调用)
54.6% ,领先一截。

这说明啥?

OpenAI 这次重心根本不是“聊天更聪明”,而是把 AI 打造成能自己操控电脑的自主代理。

数学能力也被高度重视——因为 数学是科学推理的基础,可能是通往 AGI 的关键路径
OpenAI 在这上面砸了很多资源,效果肉眼可见。


Vibe Code Bench 夺冠,从 0 到 1 建完整 Web App 牛到离谱

图片

Vals AI 的 Vibe Code Bench v1.1 超级硬核:

只给一段短描述,模型必须 从零独立搞出前后端 + 可运行的网络应用
(不是写几个函数那么简单)。

GPT-5.4 直接 67.42% 登顶,比上一代 SOTA 高了 5.7 个百分点!

最大突破在于 自我验证能力

它会主动用浏览器打开自己生成的网页,自测功能。

结果就是:

  • 满分案例暴增
  • 彻底翻车的案例锐减

以前模型写完代码经常跑不通,现在 基本能一次过审


FrontierMath 创纪录,Tier 4 难题它居然解了

图片

Epoch AI 的 FrontierMath 是目前最难的数学基准,包含大量 未解研究级难题

GPT-5.4 Pro 表现:

  • Tiers 1-3:50%
  • Tier 4(最高难度):38%

直接刷新纪录。

最牛的一点:

它 解决了一个此前所有模型都没碰过的 Tier 4 问题

更离谱的是:

它通过挖到 一个 2011 年的预印本(preprint)
大幅简化了证明过程。

甚至 连出题作者都不知道这个论文存在……

这已经不是“聪明”,而是  “会研究”了


最大意义:迈向真正自主智能体

OpenAI 官方直言:

GPT-5.4 可以编写代码来操作你的电脑,根据屏幕截图发出键盘和鼠标指令。

能力包括:

浏览器操作

大幅改进:

  • 点哪哪准
  • 滚动顺滑
  • 填表下载一气呵成

工具 / API 调用

更加精准高效:

  • 多轮搜索
  • 大海捞针
  • 最后给出论证充分的答案

跨应用任务

可以:

  • 收集多源信息
  • 综合分析
  • 长时间持续执行任务

持久性强到可怕。


这意味着什么?

未来的 AI 形态很可能是:

  • 你早上醒来,它自动 打开电脑
  • 查邮件、整理日程、生成报告
  • 写代码时,它 直接在你屏幕上调试运行
  • 网购、订票、管财务……

全部都能 代理完成

这已经不是助手,而是:

能自主规划、执行、迭代的 “AI 同事”

AGI 的影子,真的越来越清晰了。


当然,也不是完美无缺(真实反馈)

目前也存在一些不足:

  • 前端 / UI 设计 和格式美观仍然弱于 Claude Opus 4.6
  • Thinking / Pro 高推理模式速度偏慢
  • 超复杂任务偶尔会卡顿
  • 长上下文偶尔丢细节
  • 创意写作稳定性 不如专门模型
  • Pro 版价格较高,普通用户可能先观望

你已经上手 GPT-5.4 了吗?

最想让它 帮你干啥?

欢迎在评论区讨论 👇

点个赞呗,咱们一起见证 AI 彻底变天的这一刻!🚀

# AI作画