一、一道选择题
最近,技术圈都在讨论一个消息:GPT-6性能暴涨40%,4月14日发布,AGI只差“最后一公里”。
与此同时,另一波声音在说:这是炒作。OpenAI官方至今没有确认任何参数。
两种说法摆在一起,信息战的味道很浓。
我们不做站队。但这篇文章想拆的是——如果这些数据属实,GPT-6的40%性能提升从哪儿来?它跟AGI之间,到底隔着什么?
二、40%不是靠堆参数堆出来的
先看传闻中的核心数据:性能较GPT-5.4提升40%,集中在编码、推理和AI智能体任务上,200万Token上下文窗口,原生多模态统一处理。
单纯从参数规模看,这个提升不算夸张——AI行业有个心照不宣的规律:模型能力越接近上限,每提升一个百分点需要的算力投入越是指数级增长。更何况“40%”这个数字,本身就未必对应客观基准测试,更多是特定场景下的主观感知。
但更有意思的不是这个数字本身,而是它背后代表的技术路线转向。
GPT-6内部代号Spud(土豆),总参数规模5到6万亿,但每次推理只激活约10% ——5000到6000亿参数。
这意味着什么?OpenAI不再走“大力出奇迹”的老路,而是转向“巧力出奇迹”。传统稠密Transformer的边际收益在明显递减——参数每翻一倍,性能提升越来越小,推理成本却线性增长。
GPT-6的应对方案叫Symphony架构。核心思想是把模型从“一个巨人在干所有活”变成“一群专家各干各的活,由一个指挥来协调”。每一次推理只激活最相关的专家网络,其他专家保持闲置状态。这不是简单的工程优化,而是一次架构范式的跃迁。
如果你熟悉MoE(混合专家模型)的演变,就会知道:将MoE、双系统推理和原生多模态三者统一到一个架构中,本身就是极具挑战性的系统工程。