3月5日,OpenAI正式发布GPT-5.4。
这次更新如果只用一句话概括,那就是:OpenAI想让AI从“会回答问题”,进一步变成“能直接完成专业工作”的工具。
很多人看完发布信息,第一反应是“又一个更强的新模型”。
但如果把这次更新拆开看,你会发现GPT-5.4真正重要的地方,不只是跑分更高,也不只是写代码更强,而是它在几个关键方向上开始明显收敛到同一个目标——让模型在真实工作流里更能用、更稳、更省沟通成本。
换句话说,GPT-5.4不是单纯在卷参数和榜单,它更像是OpenAI对“生产力型AI”交出的一次阶段性答卷。
一、GPT-5.4最值得关注的,不是“更聪明”,而是“更像一个能干活的模型”
OpenAI对GPT-5.4的官方定位很直接:这是面向专业工作的旗舰模型。
这句话看起来像发布会话术,但结合具体功能看,含义其实很明确。GPT-5.4把推理、编码、工具调用、文档处理、表格生成、演示文稿制作,以及跨软件执行任务这些能力,往一个统一方向整合了。
以前我们说一个模型强,往往是指它在某个单点特别强,比如会写代码、会做总结、会答题、会搜资料。
而GPT-5.4释放出来的信号是:OpenAI正在把这些分散能力拼成一整套“可落地工作能力”。
这也是为什么它这次最核心的叙事,不是聊天,不是陪伴,也不是灵感,而是专业工作。
二、1.05M上下文窗口,真正改变的不是“能读更长”,而是“能做更完整”
很多文章会把“百万级上下文”写成一句口号,但这件事真正的意义,并不是模型一次能塞进更多文本,而是它更适合处理长链条任务。
GPT-5.4和GPT-5.4 Pro在API侧支持1.05M context window;而在ChatGPT里,如果你手动选择GPT-5.4 Thinking,不同付费档位的上下文是256K或400K,并不是所有用户都能直接获得1M上下文体验。
这类能力对什么场景最有价值?
很简单,就是那些过去最容易把模型“聊崩”的任务:
1.分析超长文档、合同、财报和研究资料
2.跨多个文件做归纳、比对和输出
3.处理大型代码仓库
4.在复杂流程里持续执行,而不是只完成一个问答片段
所以,长上下文真正带来的提升,不只是“能读更长”,而是:在更长任务链里不容易中途失忆,也更容易保持目标一致。
如果你是普通用户,这一更新的意义更多是“模型长期保持上下文的能力变强了”;
如果你是开发者或企业用户,那1.05M上下文才是真正值得重点研究的生产力入口。
三、最有想象力的升级:GPT-5.4开始原生支持“计算机控制”
如果要说GPT-5.4最容易引发行业讨论的能力,不是写作,也不是搜索,而是computer use。
按照OpenAI官方表述,GPT-5.4是其首个具备原生、最先进计算机使用能力的通用模型。它可以基于截图理解界面,并通过鼠标、键盘等方式在软件和网页环境中执行任务。
这件事为什么重要?
因为这意味着AI不再只是停留在“告诉你怎么做”,而是开始进入“帮你做”的阶段。
例如,模型可以识别网页界面、理解按钮和输入框位置、完成点击与填写动作,并跨多个应用连续执行任务。再往前推一步,这就是很多人一直在说的Agent方向:不是一个只会回复的聊天机器人,而是一个能在软件环境里操作、验证、修正、继续执行的数字助手。
OpenAI给出的数据也非常醒目:GPT-5.4在OSWorld-Verified上达到75.0%的成功率,高于GPT-5.2的47.3%,也高于72.4%的人类基线。
这不代表AI已经能在所有复杂桌面任务里稳定替代人,但它至少说明一件事:在“看懂界面+操作软件”这条路上,模型能力已经明显跨过了一个门槛。
四、这次升级,可能最先改变的是办公室工作流
如果你仔细看OpenAI这次展示的场景,会发现一个非常明显的倾向:它在大力强化文档、表格、PPT、网页操作、财务分析这些高频办公任务。
这不是偶然。
GPT-5.4在很多“知识工作”场景里的提升,比纯聊天更值得关注。
例如在GDPval这个覆盖44种职业知识工作的基准中,GPT-5.4达到83.0%的“匹配或超过行业专业人士”表现;在人类评审的演示文稿任务中,GPT-5.4生成的PPT有68.0%的时间更受偏好;在内部投行表格建模任务上,GPT-5.4达到87.3%,显著高于GPT-5.2的68.4%。
这说明OpenAI现在的目标已经非常明确:它不是只想让你“问得开心”,而是想让你把过去两三个小时的办公劳动,压缩成十几分钟甚至几分钟。
五、推理能力的升级,不只是更会想,而是更容易被人“中途调方向”
GPT-5.4 Thinking这次还有一个很容易被忽略,但实际体验上很关键的变化:它在开始思考时,可能会先给出一段简短的前置计划,你还可以在它思考过程中继续补充要求,直接调整方向。
这背后反映出来的,不是一个小交互优化,而是OpenAI在改变人与推理模型的协作方式。
以前使用深度推理模型,一个很常见的问题是:它开始想了,你只能等;等它想完之后,如果方向不对,再来一轮。
现在GPT-5.4 Thinking更像是先把“准备怎么做”告诉你,然后你可以在过程中打断、修正、追加限制条件。这种协作方式,对复杂任务尤其重要,因为真实工作里最贵的成本,往往不是输出本身,而是返工。
简单说,GPT-5.4不是只想把答案做长,而是想把“人和模型一起把任务做对”这件事做得更顺。
六、OpenAI这次还在强调一个能力:更少编造,更少低级错误
除了“更强”,OpenAI这次反复强调的另一个关键词是“更准”。
官方给出的数据是:相较GPT-5.2,GPT-5.4单条事实性陈述出错的概率降低了33%,完整回答中出现任何错误的概率降低了18%。
这组数据非常值得关注。
因为对于真正的工作场景来说,很多时候用户最怕的不是模型不会,而是它“看起来很会,实际上编了”。尤其是在法律、金融、研究、报告、长文档处理这些场景里,只要出现关键性事实错误,再流畅的表达都没有意义。
所以,GPT-5.4这次真正的价值,不是让AI更像“文案高手”,而是让它更像“能交付的工具”。
七、开发者也会很在意:GPT-5.4把Codex路线进一步吃进来了
对于开发者来说,GPT-5.4还有一层很重要的意义:OpenAI正在把过去偏独立演进的Codex能力,进一步整合进主力模型路线。
官方明确提到,GPT-5.4整合了近期在推理、编码和agentic workflows上的进展,并吸收了GPT-5.3-Codex的行业领先编码能力。
这代表什么?
代表以后开发者未必需要在“更会写代码的模型”和“更会思考的模型”之间反复切换。OpenAI想推动的是,一个模型同时承担复杂编码、工具选择、跨软件执行、长任务推进这些职责。
这其实也在改写下一阶段AI开发的思路:拼的可能不再是谁单次补全代码更快,而是谁更能在完整工作流里持续推进任务。
八、价格怎么理解?不是单纯涨价或降价,而是“以效率换性价比”
GPT-5.4的API价格,在低于272K输入长度时是:
输入价格:0.25 / 百万Tokens
输出价格:$15.00 / 百万Tokens
但这里有一个容易被忽视的细节:如果超过272K输入长度,GPT-5.4的输入和输出价格会提高。官方定价页明确写到,1.05M上下文窗口模型的上述标价适用于低于272K输入的会话;超过后,输入和输出价格会按更高档位计费。
从绝对单价看,它不是最便宜的模型。
但OpenAI这次真正强调的是“更高token效率”。
什么意思?
就是同样做完一件事,模型不一定非要靠堆更多token和更多轮对话来完成。如果工具调用更准、推理过程更稳、返工更少、长期任务更不容易跑偏,那么整体使用成本不一定更高,很多情况下反而更低。
所以,GPT-5.4的定价逻辑,不是让你觉得“单价真便宜”,而是要让开发者接受:虽然它是旗舰模型,但在真实工作流里依然有很强的性价比。
九、账号权限与可用性,也要看清楚
普通用户最容易搞混的,就是“我到底能不能用到GPT-5.4,以及能用到什么程度”。
更准确的说法是:
在ChatGPT里,Plus、Pro、Business可以在模型选择器中手动选择GPT-5.4 Thinking。
GPT-5.4 Pro并不是所有付费用户都有,它只对Pro、Business、Enterprise和Edu开放。
在Thinking模式下,ChatGPT里的上下文并不是1M,而是Pro档400K,其他付费档256K。
所以,如果你是普通ChatGPT用户,其实可以把GPT-5.4理解成三句话:
第一,它不是简单替代聊天模型,而是更适合难任务、长任务、专业任务。
第二,它最明显的进步不是文风,而是工作完成度。
第三,它正在把ChatGPT从一个问答工具,推向一个更接近“任务执行器”的产品。
十、最后怎么评价GPT-5.4?
如果一定要给这次发布下一个判断,我的看法是:
GPT-5.4不是那种“看一眼就震撼”的发布,但很可能是后劲非常大的更新。
因为它押注的不是某个单点炫技,而是长期最有商业价值的一件事:让AI更稳定地完成专业工作。
从1.05M上下文,到原生计算机控制,到更强的文档、表格、PPT能力,再到更低的错误率和更可控的推理交互,GPT-5.4的方向其实非常统一——不是做一个更会聊天的模型,而是做一个更能交付结果的模型。
这也意味着,未来AI产品真正的竞争重点,可能会越来越少是“谁更像人”,而越来越多是“谁更能把事情做完”。
而GPT-5.4,已经明显朝这个方向走了一大步。
最后…
如果说过去的大模型竞争,核心还是“谁更聪明”,
那么从GPT-5.4开始,行业比较的重点可能会逐步变成另一个问题:
谁更适合进入真实工作流,谁更能稳定产出可用结果,谁就更接近下一阶段的主导权。