明天,OpenAI 发 GPT-6。
朋友圈已经开始刷屏了:200万Token上下文,性能提升40%,5万亿参数,"AGI 最后一公里"。
每次 AI 发布都有这种阵仗,但这次确实不一样——
200万 Token 上下文,换算成代码是 50 万行。你整个项目的代码仓库,可以一次丢进去让它读完。
如果这个做到可用,程序员的工作方式真的要变。
但我最担心的一件事
上下文窗口大,不等于真的能用。
Claude 把上下文做到 200K 的时候,我测过:塞进去大量文本之后,中间那段内容的召回率会明显下降。问它具体细节,经常答错或者直接不记得了。
这叫"中间丢失"问题,是长上下文的通病。
GPT-6 做到了 200万,如果这个问题没解决,那只是数字变大了。
明天发布第一时间,这是我要测的第一件事。
便宜好用?不一定
5-6万亿参数,推理成本大概率不低。
API 定价比 GPT-5.4 贵是几乎确定的事。如果你现在在用 DeepSeek API 写项目,切到 GPT-6 的成本可能让你打退堂鼓。
便宜好用这条路,DeepSeek V4 还是更有竞争力的选项。
明天发布之后我会测什么
- 200万上下文的真实召回,看"中间丢失"问题有没有解决
- 丢一个真实项目让它修 bug,看和 benchmark 差距有多大
- 响应速度,这个量级还能快到可用吗
结果出来立刻发出来。
你最想知道 GPT-6 的哪个方向?评论区告诉我,明天重点测。
首发于公众号 赛博山海经,每周实测 AI 工具,不玩虚的。