OpenAI GPT-5.4遭泄露，超强性能震惊全网！从“金鱼记忆”到永久状态的跨越过去一周，AI圈被一场“意外”点燃—

过去一周，AI圈被一场“意外”点燃——OpenAI工程师在Codex代码库中不慎泄露了尚未发布的GPT-5.4模型名称，随后相关PR被火速删除、截图被紧急撤回，这种“欲盖弥彰”的操作反而坐实了新一代模型的真实性。随着更多细节浮出水面，GPT-5.4的核心能力逐渐清晰：高达200万token的上下文窗口、永久状态化记忆、像素级原始分辨率视觉直读，每一项都在重新定义AI的能力边界。3月6日，OpenAI正式发布GPT-5.4系列，证实了其中部分能力，同时带来原生计算机操控、工具搜索等革命性升级。

对于国内开发者而言，通过聚合镜像平台RskAi（ai.rsk.cn）可第一时间体验GPT-5.4的强大能力，无需特殊网络环境，且支持与Gemini 3.1 Pro、Claude 3.5 Sonnet一键切换对比。

一、泄露始末：代码库里的“不速之客”

事情的起点发生在OpenAI的Codex公开GitHub仓库。一名工程师在提交代码拉取请求时，无意间将“gpt-5.4”这个尚未公布的型号写进了版本判断条件中。几乎同一时间，带有“alpha-gpt-5.4”标识的公共模型端点以及下拉菜单截图在社交平台X上疯狂流传。

随后发生的事情极具戏剧性——这些信息仿佛触动了某种内部警报，原帖被火速删除，涉事代码也被强制推送覆盖，悄悄改成了“gpt-5.3-codex”。这种欲盖弥彰的撤回操作，恰恰打消了外界对“占位符误用”的怀疑，让看客们对新版本提前泄露的猜测可信度更高了。

更有开发者在使用Codex时触发了网络安全限制，系统返回的错误日志中赫然出现了一长串模型ID：gpt-5.4-ab-arm1-1020-1p-codexswic-ev3。这串看起来像Wi-Fi密码的字符，其实是OpenAI内部的部署标识，意味着GPT-5.4已经在服务器上真实运行并正在进行A/B测试。

二、泄露的核心能力：从“金鱼”到“永久记忆”

随着泄露信息不断发酵，GPT-5.4的核心杀手锏逐渐浮出水面。它抛弃了在常规推理基准测试里与同行近身肉搏的路线，将主战场转移到了内存与上下文架构上。

高达200万Tokens的上下文窗口是最震撼的传闻之一。这意味着模型可以一次性处理《三体》三部曲体量的文本，或者一次性分析完整的代码库。虽然正式发布时确认的窗口为100万token，但泄露信息中明确指向了200万的可能性。

更令人兴奋的是真正的状态化AI（Stateful AI） ——让模型摆脱了“金鱼般的记忆”，能够在不同的会话之间完整保留用户的工作流、开发环境乃至工具调用状态。打工人终于不用在每次新建对话时，像复读机一样重新交代冗长的项目背景。

视觉能力的暗中大跃进同样令开发者振奋。泄露信息中明确提到了一个专门针对“gpt-5.4及更高版本”的功能开关，该功能允许模型绕过传统的图像压缩机制，直接读取全分辨率的原始字节。这意味着前端工程师和设计师可以直接丢给它极其精细的UI设计图或复杂的工程原理图，彻底告别过去AI对着模糊压缩包一本正经胡说八道的体验，实现像素级的视觉分析。

三、正式发布：能力全面落地

3月6日，OpenAI正式发布GPT-5.4系列模型，证实了泄露中的大部分核心能力，并带来更多惊喜。

原生计算机操控能力成为最值得关注的亮点。这是OpenAI第一款将计算机使用能力原生内置进通用模型的产品。在OSWorld-Verified基准测试中，GPT-5.4达到75.0%的成功率，不仅远超GPT-5.2的47.3%，甚至超过了人类72.4%的平均水平。这意味着AI操控电脑的能力，第一次比人类自己操控得更好。

Mainstay的真实部署案例更具说服力：将GPT-5.4用于约三万个物业税务门户网站的自动表单填写，首次成功率达95%，三次以内成功率100%，而此前同类模型仅在73%至79%之间。会话完成速度提升约三倍，Token消耗降低约70%。

工具搜索机制彻底改变了多工具系统的运行方式。在旧方案中，系统提示必须一次性向模型注入所有可用工具的定义，随着工具数量增加，这部分提示本身就会大量占用token。新的Tool Search允许模型按需查询工具定义，在Scale的MCP Atlas基准测试中，启用该功能后总token消耗量减少47% ，同时保持相同准确率。

专业知识工作能力实现大幅突破。在44个职业领域的GDPval基准测试中，GPT-5.4有83.0%的项目达到或超过行业专业水平，相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中，GPT-5.4平均得分87.3%，远高于GPT-5.2的68.4%。

四、从泄露到发布：技术脉络的印证

对比泄露传闻与正式发布的信息，可以发现一个有趣的现象：泄露传闻往往比正式发布“领先半步”。

上下文窗口方面，泄露传闻指向200万token，正式发布确认了100万token。这种差异可能源于OpenAI在最后一刻的谨慎——毕竟100万token已经是业界领先，200万token可能需要更多时间验证稳定性。

视觉能力方面，泄露中提到的“原始分辨率直读”在正式发布中得到了印证：GPT-5.4引入了原始图像输入模式，支持最高1024万像素或6000像素最大边长的高保真图像输入。

状态化记忆方面，虽然正式发布没有直接宣称“永久记忆”，但GPT-5.4在长周期任务上的表现明显提升——能够更好地记住用户请求的细节，在多步操作中更少犯错。

五、技术格局：GPT-5.4在AI三强中的定位

当前AI三强——OpenAI、Anthropic、Google——各有胜场，没有一个模型能赢得所有基准测试：

专业知识工作：GPT-5.4以GDPval 83.0%领先

自动化桌面工作流：GPT-5.4以OSWorld 75.0%超越人类

生产级代码修复：Claude Opus 4.6以SWE-Bench 80.8%最高

科学研究和深度推理：Gemini 3.1 Pro以GPQA 94.3%称霸

超长文档处理：Gemini 3.1 Pro以1M上下文领先

成本敏感场景：Gemini 3.1 Pro定价最低

业内的共识越来越明确：多模型路由策略（根据任务类型自动选择最合适的模型）才是最优解。

对于国内开发者而言，这正是RskAi的核心价值所在——平台聚合GPT-5.4、Gemini 3.1 Pro、Claude 3.5 Sonnet三大模型，支持一键切换对比，且国内可直接访问、完全免费。无论是想体验GPT-5.4的原生电脑操控能力，还是需要对比不同模型在特定任务上的表现，RskAi都提供了最低门槛的接入方案。

六、结语：泄露背后的行业信号

GPT-5.4的“意外泄露”事件，本身就是一个值得玩味的行业信号。OpenAI不再像过去那样严格保密，而是让新模型在Codex等产品中“提前露脸”，甚至容忍A/B测试版本的名称出现在用户视野中。

这种“半公开式”的迭代节奏，意味着AI行业已经从“大版本发布”进入“持续模型DevOps”时代。版本号正在变得流动而非仪式化，真正的竞争发生在日常使用中，而不是新闻稿里。

对于用户而言，这意味着你不需要等待“下一个大版本”——很可能已经在使用它。无论是通过官方渠道，还是像RskAi这样的国内镜像站，体验GPT-5.4的时刻，就是现在。

国内用户可通过RskAi立即体验GPT-5.4的强大能力，无需特殊网络环境，与Gemini、Claude同台对比，找到最适合你工作流的那一个。

【本文完】