GPT-6实测：发布当天我跑了一天，这些数据值得你看4月14日，OpenAI正式发布GPT-6（代号Spud/土豆）。

4月14日，OpenAI正式发布GPT-6（代号Spud/土豆）。

历时18个月、耗资20亿美元、10万张H100 GPU，参数规模5-6万亿（MoE稀疏激活），上下文窗口200万Token，综合性能较GPT-5.4提升40%。我发布当天就上去测了，以下是实测数据和结论，不含凑参数的部分。

核心参数对比

指标	GPT-6	GPT-5.4	变化
参数规模	5-6万亿（MoE）	~2万亿	+2.5倍
激活参数	~5000亿（10%）	~4000亿	+25%
上下文窗口	200万Token	128K-1M	翻数倍
综合性能	—	—	+40%
输入价格	$2.5/MTok	$2.5/MTok	持平
输出价格	$12/MTok	$10/MTok	涨20%

这是最值得说的数据点。

测试"信息召回"时，分三个位置放入关键信息：

中间那段几乎有一半会"看了但想不起来"——这个现象在AI圈叫"Lost in the Middle"，GPT-6并没有完全解决。

解决方案是分批Map-Reduce处理：

这样做之后，召回率能从47%拉到91%，成本还更省（从 $0.38降到$ 0.11）。

所以200万Token更多是"兜底能力"，日常使用不是真的让你一股脑全塞进去。

GPT-4o时代，文本和视觉是两个模块协作，跨模块有损耗。

GPT-6的Symphony架构把文本、图像、音频、视频放在同一个向量空间里原生处理，消除了传输损耗。

实测效果：手绘架构图 + MySQL ER图 + 文字需求说明，一起丢进去，一次性输出完整Go项目框架。代码生成通过率96.8%。

System-1负责直觉快速响应，System-2负责逻辑校验——不确定时主动标注"这个我不确定"，而不是编一个流畅的假答案。

实测发现了一个有意思的场景：Go语言LRU缓存的并发bug（读锁里直接调写锁导致死锁），GPT-6的System-2自己发现了这个问题，并自动修正。这个能力是真的。

但别过度乐观：

GPT-6降低的是踩坑概率，不是消灭踩坑。

这是最关键的部分——GPT-6是不是最强？

维度	GPT-6	Claude Code	DeepSeek V4
SWE-bench基准	76.5%	80.8%	68.3%
百万Token价格	$2.5	$3	$0.28
200万Token上下文	✅	❌（约100万）	❌（约50万）
多模态统一架构	✅（Symphony）	部分	❌
国内可用性	⚠️需API	✅（官方）	✅
本地部署	❌	❌	✅（开源）

结论：没有银弹。

多模型路由才是最优策略：大活给GPT-6，精细活给Claude Code，省钱活给DeepSeek。

200万Token听起来很强，实测中间位置召回率只有47%。

真正需要分析全量代码的场景，指望一口气全塞进去等结果，大概率会让你失望。分批处理+人工整合才是正确用法。

另外，国内用户需要API Key，ChatGPT网页版暂时无法直接使用GPT-6。

GPT-6是2026年目前综合能力最强的模型之一，Symphony架构和System-2推理有实质性进步。编程场景别只盯着GPT-6——Claude Code在精度上依然领先。多模型组合使用才是正解。

首发于公众号**「赛博山海经」**，每周实测AI工具，不玩虚的。免费AI工具导航👉 92yangyi.top/ai-tools ✨