昨天 OpenAI 悄悄上线了 GPT-5.4 mini 和 nano。很多人第一反应是去看参数、看跑分,或者拿它和满血版比智商。
其实看偏了。
如果你仔细翻了官方的技术报告,尤其是跑分表下面那段关于“Subagents(子智能体)”的描述,你会发现这根本不是一次简单的“降本增效”更新,而是 OpenAI 在教我们怎么写下一代 AI 应用的架构。
便宜到可以随便挥霍的算力
先过一眼关键数据。GPT-5.4 mini 在 SWE-Bench Pro(真实代码修复)上拿了 54.4%,而满血版是 57.7%。差距极小,但 mini 的运行速度是上一代的两倍,输出成本只要满血版的 1/3。最小的 nano 输出成本更是低到 1.25 美元/百万 token。
这意味着什么?意味着在实际工程里,算力不再是需要精打细算的稀缺资源。
以前我们做 Agent,恨不得把所有的 prompt、所有的上下文都塞给一个最大的模型,生怕它理解错一点点。这就导致系统响应慢得像蜗牛,跑一次 token 账单让人肉疼。
现在的玩法变了。
Planner-Executor:总包与打工人的解耦
现在海外开发者社区讨论最火的架构模式,就是用大模型做 Planner(规划者),小模型做 Executor(执行者)。
假设你要写一个帮你自动重构代码的工具。
你不需要让大模型去干所有事。你只让满血版 GPT-5.4 读一遍需求,列出步骤大纲,生成一个执行策略。然后,它把具体的任务拆解,通过代码调度分发给 10 个 GPT-5.4 mini 实例并发执行。
- mini A 去检索核心的库文件。
- mini B 去扫依赖冲突。
- mini C 去写单元测试。
- nano D 去把返回的结果做个基础分类和格式化。
在 OpenAI 自家的 Codex 里面,这个机制已经落地了。官方文档明确说,跑这种 mini 子智能体,只占配额的 30%。花三分之一的钱,干并发的活。
丢掉大模型的全能幻想
我看了网上不少人在测 mini 的长文本,然后吐槽说它在 128k 以上的区间里,信息检索准确率(MRCR v2 测试)跌到了 33.6%,根本没法用。
这其实是没理解小模型的定位。
mini 本来就不是用来做长线逻辑推理和海量文档检索的。它在 OSWorld-Verified(操作电脑屏幕 UI)里能拿 72.1%,在 Toolathlon(多工具链调用)里能拿 42.9%,它的核心技能点点在了 “看图、调工具、写短代码” 上。
它是个手脚麻利的底层执行单元,不是坐在办公室里读几万字财报的分析师。
总结
以后我们在做系统架构设计的时候,第一步不该是问“选哪个大模型”,而是要学会任务分层。把需要“智商”的决策逻辑交给旗舰模型,把需要“手速”和并发的脏活累活全抛给 mini 和 nano。
大模型负责摸高,小模型负责铺量。这才是接下来 AI 应用开发的正确姿势。