过去一周,AI圈被一场“意外”点燃——OpenAI工程师在Codex代码库中不慎泄露了尚未发布的GPT-5.4模型名称,随后相关PR被火速删除、截图被紧急撤回,这种“欲盖弥彰”的操作反而坐实了新一代模型的真实性。随着更多细节浮出水面,GPT-5.4的核心能力逐渐清晰:高达200万token的上下文窗口、永久状态化记忆、像素级原始分辨率视觉直读,每一项都在重新定义AI的能力边界。3月6日,OpenAI正式发布GPT-5.4系列,证实了其中部分能力,同时带来原生计算机操控、工具搜索等革命性升级。
对于国内开发者而言,通过聚合镜像平台RskAi(ai.rsk.cn)可第一时间体验GPT-5.4的强大能力,无需特殊网络环境,且支持与Gemini 3.1 Pro、Claude 3.5 Sonnet一键切换对比。
一、泄露始末:代码库里的“不速之客”
事情的起点发生在OpenAI的Codex公开GitHub仓库。一名工程师在提交代码拉取请求时,无意间将“gpt-5.4”这个尚未公布的型号写进了版本判断条件中。几乎同一时间,带有“alpha-gpt-5.4”标识的公共模型端点以及下拉菜单截图在社交平台X上疯狂流传。
随后发生的事情极具戏剧性——这些信息仿佛触动了某种内部警报,原帖被火速删除,涉事代码也被强制推送覆盖,悄悄改成了“gpt-5.3-codex”。这种欲盖弥彰的撤回操作,恰恰打消了外界对“占位符误用”的怀疑,让看客们对新版本提前泄露的猜测可信度更高了。
更有开发者在使用Codex时触发了网络安全限制,系统返回的错误日志中赫然出现了一长串模型ID:gpt-5.4-ab-arm1-1020-1p-codexswic-ev3。这串看起来像Wi-Fi密码的字符,其实是OpenAI内部的部署标识,意味着GPT-5.4已经在服务器上真实运行并正在进行A/B测试。
二、泄露的核心能力:从“金鱼”到“永久记忆”
随着泄露信息不断发酵,GPT-5.4的核心杀手锏逐渐浮出水面。它抛弃了在常规推理基准测试里与同行近身肉搏的路线,将主战场转移到了内存与上下文架构上。
高达200万Tokens的上下文窗口是最震撼的传闻之一。这意味着模型可以一次性处理《三体》三部曲体量的文本,或者一次性分析完整的代码库。虽然正式发布时确认的窗口为100万token,但泄露信息中明确指向了200万的可能性。
更令人兴奋的是真正的状态化AI(Stateful AI) ——让模型摆脱了“金鱼般的记忆”,能够在不同的会话之间完整保留用户的工作流、开发环境乃至工具调用状态。打工人终于不用在每次新建对话时,像复读机一样重新交代冗长的项目背景。
视觉能力的暗中大跃进同样令开发者振奋。泄露信息中明确提到了一个专门针对“gpt-5.4及更高版本”的功能开关,该功能允许模型绕过传统的图像压缩机制,直接读取全分辨率的原始字节。这意味着前端工程师和设计师可以直接丢给它极其精细的UI设计图或复杂的工程原理图,彻底告别过去AI对着模糊压缩包一本正经胡说八道的体验,实现像素级的视觉分析。
三、正式发布:能力全面落地
3月6日,OpenAI正式发布GPT-5.4系列模型,证实了泄露中的大部分核心能力,并带来更多惊喜。
原生计算机操控能力成为最值得关注的亮点。这是OpenAI第一款将计算机使用能力原生内置进通用模型的产品。在OSWorld-Verified基准测试中,GPT-5.4达到75.0%的成功率,不仅远超GPT-5.2的47.3%,甚至超过了人类72.4%的平均水平。这意味着AI操控电脑的能力,第一次比人类自己操控得更好。
Mainstay的真实部署案例更具说服力:将GPT-5.4用于约三万个物业税务门户网站的自动表单填写,首次成功率达95%,三次以内成功率100%,而此前同类模型仅在73%至79%之间。会话完成速度提升约三倍,Token消耗降低约70%。
工具搜索机制彻底改变了多工具系统的运行方式。在旧方案中,系统提示必须一次性向模型注入所有可用工具的定义,随着工具数量增加,这部分提示本身就会大量占用token。新的Tool Search允许模型按需查询工具定义,在Scale的MCP Atlas基准测试中,启用该功能后总token消耗量减少47% ,同时保持相同准确率。
专业知识工作能力实现大幅突破。在44个职业领域的GDPval基准测试中,GPT-5.4有83.0%的项目达到或超过行业专业水平,相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%。
四、从泄露到发布:技术脉络的印证
对比泄露传闻与正式发布的信息,可以发现一个有趣的现象:泄露传闻往往比正式发布“领先半步”。
上下文窗口方面,泄露传闻指向200万token,正式发布确认了100万token。这种差异可能源于OpenAI在最后一刻的谨慎——毕竟100万token已经是业界领先,200万token可能需要更多时间验证稳定性。
视觉能力方面,泄露中提到的“原始分辨率直读”在正式发布中得到了印证:GPT-5.4引入了原始图像输入模式,支持最高1024万像素或6000像素最大边长的高保真图像输入。
状态化记忆方面,虽然正式发布没有直接宣称“永久记忆”,但GPT-5.4在长周期任务上的表现明显提升——能够更好地记住用户请求的细节,在多步操作中更少犯错。
五、技术格局:GPT-5.4在AI三强中的定位
当前AI三强——OpenAI、Anthropic、Google——各有胜场,没有一个模型能赢得所有基准测试:
专业知识工作:GPT-5.4以GDPval 83.0%领先
自动化桌面工作流:GPT-5.4以OSWorld 75.0%超越人类
生产级代码修复:Claude Opus 4.6以SWE-Bench 80.8%最高
科学研究和深度推理:Gemini 3.1 Pro以GPQA 94.3%称霸
超长文档处理:Gemini 3.1 Pro以1M上下文领先
成本敏感场景:Gemini 3.1 Pro定价最低
业内的共识越来越明确:多模型路由策略(根据任务类型自动选择最合适的模型)才是最优解。
对于国内开发者而言,这正是RskAi的核心价值所在——平台聚合GPT-5.4、Gemini 3.1 Pro、Claude 3.5 Sonnet三大模型,支持一键切换对比,且国内可直接访问、完全免费。无论是想体验GPT-5.4的原生电脑操控能力,还是需要对比不同模型在特定任务上的表现,RskAi都提供了最低门槛的接入方案。
六、结语:泄露背后的行业信号
GPT-5.4的“意外泄露”事件,本身就是一个值得玩味的行业信号。OpenAI不再像过去那样严格保密,而是让新模型在Codex等产品中“提前露脸”,甚至容忍A/B测试版本的名称出现在用户视野中。
这种“半公开式”的迭代节奏,意味着AI行业已经从“大版本发布”进入“持续模型DevOps”时代。版本号正在变得流动而非仪式化,真正的竞争发生在日常使用中,而不是新闻稿里。
对于用户而言,这意味着你不需要等待“下一个大版本”——很可能已经在使用它。无论是通过官方渠道,还是像RskAi这样的国内镜像站,体验GPT-5.4的时刻,就是现在。
国内用户可通过RskAi立即体验GPT-5.4的强大能力,无需特殊网络环境,与Gemini、Claude同台对比,找到最适合你工作流的那一个。
【本文完】