4月14日,OpenAI正式发布GPT-6(代号Spud/土豆)。
历时18个月、耗资20亿美元、10万张H100 GPU,参数规模5-6万亿(MoE稀疏激活),上下文窗口200万Token,综合性能较GPT-5.4提升40%。
我发布当天就上去测了,以下是实测数据和结论,不含凑参数的部分。
核心参数对比
| 指标 | GPT-6 | GPT-5.4 | 变化 |
|---|---|---|---|
| 参数规模 | 5-6万亿(MoE) | ~2万亿 | +2.5倍 |
| 激活参数 | ~5000亿(10%) | ~4000亿 | +25% |
| 上下文窗口 | 200万Token | 128K-1M | 翻数倍 |
| 综合性能 | — | — | +40% |
| 输入价格 | $2.5/MTok | $2.5/MTok | 持平 |
| 输出价格 | $12/MTok | $10/MTok | 涨20% |
200万Token实测:中间位置有个坑
这是最值得说的数据点。
测试"信息召回"时,分三个位置放入关键信息:
| 信息位置 | 召回率 |
|---|---|
| 头部(前10%) | 89% |
| 中间(40%-60%) | 47% |
| 尾部(后10%) | 87% |
中间那段几乎有一半会"看了但想不起来"——这个现象在AI圈叫"Lost in the Middle",GPT-6并没有完全解决。
解决方案是分批Map-Reduce处理:
- 核心文件放头尾
- 每批控制在50万Token以内
- 汇总时做交叉引用检查
这样做之后,召回率能从47%拉到91%,成本还更省(从0.11)。
所以200万Token更多是"兜底能力",日常使用不是真的让你一股脑全塞进去。
Symphony架构:多模态统一处理
GPT-4o时代,文本和视觉是两个模块协作,跨模块有损耗。
GPT-6的Symphony架构把文本、图像、音频、视频放在同一个向量空间里原生处理,消除了传输损耗。
实测效果:手绘架构图 + MySQL ER图 + 文字需求说明,一起丢进去,一次性输出完整Go项目框架。代码生成通过率96.8%。
System-2推理:幻觉率<0.1%,但不要迷信
System-1负责直觉快速响应,System-2负责逻辑校验——不确定时主动标注"这个我不确定",而不是编一个流畅的假答案。
实测发现了一个有意思的场景:Go语言LRU缓存的并发bug(读锁里直接调写锁导致死锁),GPT-6的System-2自己发现了这个问题,并自动修正。这个能力是真的。
但别过度乐观:
- 法律条文分析:仍需人工复核
- 财务报表核查:不能完全信任
- 医疗文档处理:同上
GPT-6降低的是踩坑概率,不是消灭踩坑。
和Claude Code、DeepSeek V4横向对比
这是最关键的部分——GPT-6是不是最强?
| 维度 | GPT-6 | Claude Code | DeepSeek V4 |
|---|---|---|---|
| SWE-bench基准 | 76.5% | 80.8% | 68.3% |
| 百万Token价格 | $2.5 | $3 | $0.28 |
| 200万Token上下文 | ✅ | ❌(约100万) | ❌(约50万) |
| 多模态统一架构 | ✅(Symphony) | 部分 | ❌ |
| 国内可用性 | ⚠️需API | ✅(官方) | ✅ |
| 本地部署 | ❌ | ❌ | ✅(开源) |
结论:没有银弹。
- 需要处理超长代码上下文:GPT-6有优势,200万Token是实打实的
- 追求编程精度和稳定性:Claude Code的SWE-bench 80.8%依然是第一
- 预算敏感、需要本地部署:DeepSeek V4价格是GPT-6的1/10
多模型路由才是最优策略:大活给GPT-6,精细活给Claude Code,省钱活给DeepSeek。
一个诚实的缺点
200万Token听起来很强,实测中间位置召回率只有47%。
真正需要分析全量代码的场景,指望一口气全塞进去等结果,大概率会让你失望。分批处理+人工整合才是正确用法。
另外,国内用户需要API Key,ChatGPT网页版暂时无法直接使用GPT-6。
总结
GPT-6是2026年目前综合能力最强的模型之一,Symphony架构和System-2推理有实质性进步。编程场景别只盯着GPT-6——Claude Code在精度上依然领先。多模型组合使用才是正解。
首发于公众号**「赛博山海经」**,每周实测AI工具,不玩虚的。免费AI工具导航👉 92yangyi.top/ai-tools ✨
参考来源
- GPT-6 正式发布:土豆落地,五大变化(apisitlee.com,2026-04-14)
- 【实战】GPT-6今天发布了——附踩坑记录(AtomGit,2026-04-14)