GPT-6实测:发布当天我跑了一天,这些数据值得你看

0 阅读4分钟

4月14日,OpenAI正式发布GPT-6(代号Spud/土豆)。

历时18个月、耗资20亿美元、10万张H100 GPU,参数规模5-6万亿(MoE稀疏激活),上下文窗口200万Token,综合性能较GPT-5.4提升40%。 我发布当天就上去测了,以下是实测数据和结论,不含凑参数的部分。

核心参数对比

指标GPT-6GPT-5.4变化
参数规模5-6万亿(MoE)~2万亿+2.5倍
激活参数~5000亿(10%)~4000亿+25%
上下文窗口200万Token128K-1M翻数倍
综合性能+40%
输入价格$2.5/MTok$2.5/MTok持平
输出价格$12/MTok$10/MTok涨20%

200万Token实测:中间位置有个坑

这是最值得说的数据点。

测试"信息召回"时,分三个位置放入关键信息:

信息位置召回率
头部(前10%)89%
中间(40%-60%)47%
尾部(后10%)87%

中间那段几乎有一半会"看了但想不起来"——这个现象在AI圈叫"Lost in the Middle",GPT-6并没有完全解决。

解决方案是分批Map-Reduce处理:

  • 核心文件放头尾
  • 每批控制在50万Token以内
  • 汇总时做交叉引用检查

这样做之后,召回率能从47%拉到91%,成本还更省(从0.38降到0.38降到0.11)。

所以200万Token更多是"兜底能力",日常使用不是真的让你一股脑全塞进去。

Symphony架构:多模态统一处理

GPT-4o时代,文本和视觉是两个模块协作,跨模块有损耗。

GPT-6的Symphony架构把文本、图像、音频、视频放在同一个向量空间里原生处理,消除了传输损耗。

实测效果:手绘架构图 + MySQL ER图 + 文字需求说明,一起丢进去,一次性输出完整Go项目框架。代码生成通过率96.8%。

System-2推理:幻觉率<0.1%,但不要迷信

System-1负责直觉快速响应,System-2负责逻辑校验——不确定时主动标注"这个我不确定",而不是编一个流畅的假答案。

实测发现了一个有意思的场景:Go语言LRU缓存的并发bug(读锁里直接调写锁导致死锁),GPT-6的System-2自己发现了这个问题,并自动修正。这个能力是真的。

但别过度乐观:

  • 法律条文分析:仍需人工复核
  • 财务报表核查:不能完全信任
  • 医疗文档处理:同上

GPT-6降低的是踩坑概率,不是消灭踩坑。

和Claude Code、DeepSeek V4横向对比

这是最关键的部分——GPT-6是不是最强?

维度GPT-6Claude CodeDeepSeek V4
SWE-bench基准76.5%80.8%68.3%
百万Token价格$2.5$3$0.28
200万Token上下文❌(约100万)❌(约50万)
多模态统一架构✅(Symphony)部分
国内可用性⚠️需API✅(官方)
本地部署✅(开源)

结论:没有银弹。

  • 需要处理超长代码上下文:GPT-6有优势,200万Token是实打实的
  • 追求编程精度和稳定性:Claude Code的SWE-bench 80.8%依然是第一
  • 预算敏感、需要本地部署:DeepSeek V4价格是GPT-6的1/10

多模型路由才是最优策略:大活给GPT-6,精细活给Claude Code,省钱活给DeepSeek。

一个诚实的缺点

200万Token听起来很强,实测中间位置召回率只有47%。

真正需要分析全量代码的场景,指望一口气全塞进去等结果,大概率会让你失望。分批处理+人工整合才是正确用法。

另外,国内用户需要API Key,ChatGPT网页版暂时无法直接使用GPT-6。

总结

GPT-6是2026年目前综合能力最强的模型之一,Symphony架构和System-2推理有实质性进步。编程场景别只盯着GPT-6——Claude Code在精度上依然领先。多模型组合使用才是正解。

首发于公众号**「赛博山海经」**,每周实测AI工具,不玩虚的。免费AI工具导航👉 92yangyi.top/ai-tools

参考来源

  • GPT-6 正式发布:土豆落地,五大变化(apisitlee.com,2026-04-14)
  • 【实战】GPT-6今天发布了——附踩坑记录(AtomGit,2026-04-14)