GPT-5.4正式发布：OpenAI不只是把模型变强了，而是在把AI推向“可交付工作”的阶段！3月5日，OpenAI正式

ChatGPT-5.4配图-1.png

3月5日，OpenAI正式发布GPT-5.4。

这次更新如果只用一句话概括，那就是：OpenAI想让AI从“会回答问题”，进一步变成“能直接完成专业工作”的工具。

很多人看完发布信息，第一反应是“又一个更强的新模型”。

但如果把这次更新拆开看，你会发现GPT-5.4真正重要的地方，不只是跑分更高，也不只是写代码更强，而是它在几个关键方向上开始明显收敛到同一个目标——让模型在真实工作流里更能用、更稳、更省沟通成本。

换句话说，GPT-5.4不是单纯在卷参数和榜单，它更像是OpenAI对“生产力型AI”交出的一次阶段性答卷。

一、GPT-5.4最值得关注的，不是“更聪明”，而是“更像一个能干活的模型”

ChatGPT-5.4配图-2.png

OpenAI对GPT-5.4的官方定位很直接：这是面向专业工作的旗舰模型。

这句话看起来像发布会话术，但结合具体功能看，含义其实很明确。GPT-5.4把推理、编码、工具调用、文档处理、表格生成、演示文稿制作，以及跨软件执行任务这些能力，往一个统一方向整合了。

以前我们说一个模型强，往往是指它在某个单点特别强，比如会写代码、会做总结、会答题、会搜资料。

而GPT-5.4释放出来的信号是：OpenAI正在把这些分散能力拼成一整套“可落地工作能力”。

这也是为什么它这次最核心的叙事，不是聊天，不是陪伴，也不是灵感，而是专业工作。

二、1.05M上下文窗口，真正改变的不是“能读更长”，而是“能做更完整”

ChatGPT-5.4配图-3.png

很多文章会把“百万级上下文”写成一句口号，但这件事真正的意义，并不是模型一次能塞进更多文本，而是它更适合处理长链条任务。

GPT-5.4和GPT-5.4 Pro在API侧支持1.05M context window；而在ChatGPT里，如果你手动选择GPT-5.4 Thinking，不同付费档位的上下文是256K或400K，并不是所有用户都能直接获得1M上下文体验。

这类能力对什么场景最有价值？

很简单，就是那些过去最容易把模型“聊崩”的任务：

1.分析超长文档、合同、财报和研究资料
2.跨多个文件做归纳、比对和输出
3.处理大型代码仓库
4.在复杂流程里持续执行，而不是只完成一个问答片段

所以，长上下文真正带来的提升，不只是“能读更长”，而是：在更长任务链里不容易中途失忆，也更容易保持目标一致。

如果你是普通用户，这一更新的意义更多是“模型长期保持上下文的能力变强了”；
如果你是开发者或企业用户，那1.05M上下文才是真正值得重点研究的生产力入口。

三、最有想象力的升级：GPT-5.4开始原生支持“计算机控制”

如果要说GPT-5.4最容易引发行业讨论的能力，不是写作，也不是搜索，而是computer use。

按照OpenAI官方表述，GPT-5.4是其首个具备原生、最先进计算机使用能力的通用模型。它可以基于截图理解界面，并通过鼠标、键盘等方式在软件和网页环境中执行任务。

这件事为什么重要？

因为这意味着AI不再只是停留在“告诉你怎么做”，而是开始进入“帮你做”的阶段。

例如，模型可以识别网页界面、理解按钮和输入框位置、完成点击与填写动作，并跨多个应用连续执行任务。再往前推一步，这就是很多人一直在说的Agent方向：不是一个只会回复的聊天机器人，而是一个能在软件环境里操作、验证、修正、继续执行的数字助手。

OpenAI给出的数据也非常醒目：GPT-5.4在OSWorld-Verified上达到75.0%的成功率，高于GPT-5.2的47.3%，也高于72.4%的人类基线。

这不代表AI已经能在所有复杂桌面任务里稳定替代人，但它至少说明一件事：在“看懂界面+操作软件”这条路上，模型能力已经明显跨过了一个门槛。

四、这次升级，可能最先改变的是办公室工作流

ChatGPT-5.4配图-4.png

如果你仔细看OpenAI这次展示的场景，会发现一个非常明显的倾向：它在大力强化文档、表格、PPT、网页操作、财务分析这些高频办公任务。

这不是偶然。

GPT-5.4在很多“知识工作”场景里的提升，比纯聊天更值得关注。

例如在GDPval这个覆盖44种职业知识工作的基准中，GPT-5.4达到83.0%的“匹配或超过行业专业人士”表现；在人类评审的演示文稿任务中，GPT-5.4生成的PPT有68.0%的时间更受偏好；在内部投行表格建模任务上，GPT-5.4达到87.3%，显著高于GPT-5.2的68.4%。

这说明OpenAI现在的目标已经非常明确：它不是只想让你“问得开心”，而是想让你把过去两三个小时的办公劳动，压缩成十几分钟甚至几分钟。

五、推理能力的升级，不只是更会想，而是更容易被人“中途调方向”

GPT-5.4 Thinking这次还有一个很容易被忽略，但实际体验上很关键的变化：它在开始思考时，可能会先给出一段简短的前置计划，你还可以在它思考过程中继续补充要求，直接调整方向。

这背后反映出来的，不是一个小交互优化，而是OpenAI在改变人与推理模型的协作方式。

以前使用深度推理模型，一个很常见的问题是：它开始想了，你只能等；等它想完之后，如果方向不对，再来一轮。

现在GPT-5.4 Thinking更像是先把“准备怎么做”告诉你，然后你可以在过程中打断、修正、追加限制条件。这种协作方式，对复杂任务尤其重要，因为真实工作里最贵的成本，往往不是输出本身，而是返工。

简单说，GPT-5.4不是只想把答案做长，而是想把“人和模型一起把任务做对”这件事做得更顺。

六、OpenAI这次还在强调一个能力：更少编造，更少低级错误

除了“更强”，OpenAI这次反复强调的另一个关键词是“更准”。

官方给出的数据是：相较GPT-5.2，GPT-5.4单条事实性陈述出错的概率降低了33%，完整回答中出现任何错误的概率降低了18%。

这组数据非常值得关注。

因为对于真正的工作场景来说，很多时候用户最怕的不是模型不会，而是它“看起来很会，实际上编了”。尤其是在法律、金融、研究、报告、长文档处理这些场景里，只要出现关键性事实错误，再流畅的表达都没有意义。

所以，GPT-5.4这次真正的价值，不是让AI更像“文案高手”，而是让它更像“能交付的工具”。

七、开发者也会很在意：GPT-5.4把Codex路线进一步吃进来了

对于开发者来说，GPT-5.4还有一层很重要的意义：OpenAI正在把过去偏独立演进的Codex能力，进一步整合进主力模型路线。

官方明确提到，GPT-5.4整合了近期在推理、编码和agentic workflows上的进展，并吸收了GPT-5.3-Codex的行业领先编码能力。

这代表什么？

代表以后开发者未必需要在“更会写代码的模型”和“更会思考的模型”之间反复切换。OpenAI想推动的是，一个模型同时承担复杂编码、工具选择、跨软件执行、长任务推进这些职责。

这其实也在改写下一阶段AI开发的思路：拼的可能不再是谁单次补全代码更快，而是谁更能在完整工作流里持续推进任务。

八、价格怎么理解？不是单纯涨价或降价，而是“以效率换性价比”

GPT-5.4的API价格，在低于272K输入长度时是：

输入价格： $2.50 / 百万Tokens 缓存输入：$ 0.25 / 百万Tokens
输出价格：$15.00 / 百万Tokens

但这里有一个容易被忽视的细节：如果超过272K输入长度，GPT-5.4的输入和输出价格会提高。官方定价页明确写到，1.05M上下文窗口模型的上述标价适用于低于272K输入的会话；超过后，输入和输出价格会按更高档位计费。

从绝对单价看，它不是最便宜的模型。

但OpenAI这次真正强调的是“更高token效率”。

什么意思？

就是同样做完一件事，模型不一定非要靠堆更多token和更多轮对话来完成。如果工具调用更准、推理过程更稳、返工更少、长期任务更不容易跑偏，那么整体使用成本不一定更高，很多情况下反而更低。

所以，GPT-5.4的定价逻辑，不是让你觉得“单价真便宜”，而是要让开发者接受：虽然它是旗舰模型，但在真实工作流里依然有很强的性价比。

九、账号权限与可用性，也要看清楚

普通用户最容易搞混的，就是“我到底能不能用到GPT-5.4，以及能用到什么程度”。

更准确的说法是：

在ChatGPT里，Plus、Pro、Business可以在模型选择器中手动选择GPT-5.4 Thinking。
GPT-5.4 Pro并不是所有付费用户都有，它只对Pro、Business、Enterprise和Edu开放。
在Thinking模式下，ChatGPT里的上下文并不是1M，而是Pro档400K，其他付费档256K。

所以，如果你是普通ChatGPT用户，其实可以把GPT-5.4理解成三句话：

第一，它不是简单替代聊天模型，而是更适合难任务、长任务、专业任务。
第二，它最明显的进步不是文风，而是工作完成度。
第三，它正在把ChatGPT从一个问答工具，推向一个更接近“任务执行器”的产品。

十、最后怎么评价GPT-5.4？

如果一定要给这次发布下一个判断，我的看法是：

GPT-5.4不是那种“看一眼就震撼”的发布，但很可能是后劲非常大的更新。

因为它押注的不是某个单点炫技，而是长期最有商业价值的一件事：让AI更稳定地完成专业工作。

从1.05M上下文，到原生计算机控制，到更强的文档、表格、PPT能力，再到更低的错误率和更可控的推理交互，GPT-5.4的方向其实非常统一——不是做一个更会聊天的模型，而是做一个更能交付结果的模型。

这也意味着，未来AI产品真正的竞争重点，可能会越来越少是“谁更像人”，而越来越多是“谁更能把事情做完”。

而GPT-5.4，已经明显朝这个方向走了一大步。

最后…

如果说过去的大模型竞争，核心还是“谁更聪明”，

那么从GPT-5.4开始，行业比较的重点可能会逐步变成另一个问题：

谁更适合进入真实工作流，谁更能稳定产出可用结果，谁就更接近下一阶段的主导权。