GPT-5.5首周实测:代码更能打了,但我的AI会员账单也更厚了

0 阅读11分钟

这周 AI 编程圈有两件事挺值得聊。

一件是 OpenAI 放出了 GPT-5.5
另一件是 Anthropic 公开承认 Claude Code 过去两个月确实出现过“降智”问题

这两个消息放在一起看,很有意思。

一边是新模型越来越强,开始真正像“能干活的同事”;另一边是模型服务越来越复杂,稳定性、订阅成本、工具选择,正在变成开发者每天都要面对的问题。

所以这篇不吹,也不踩。
我就聊聊这周的真实使用感受,以及一个越来越现实的问题:

当每个模型都变强,但每个都要单独付费时,我们的钱包到底还能撑多久?


ChatGPT Image 2026年4月26日 19_57_53.png

一、GPT-5.5来了:不只是更强,而是更像“同事”了

4 月 23 日,OpenAI 发布 GPT-5.5。

这次更新和以前那种“小修小补”不太一样。按照官方说法,GPT-5.5 是自 GPT-4.5 以来首个从零完整重训的基础模型,距离 GPT-5.4 发布仅 7 周。

我这周密集用下来,最明显的变化有三个。

1. 编程能力确实更能打了

从基准数据看,GPT-5.5 的代码能力提升很明显:

  • Terminal-Bench 2.0:82.7%
  • SWE-Bench Pro:58.6%
  • Expert-SWE:73.1%

这些数据本身已经够亮眼,但更关键的是,它在真实工程场景里也更稳了。

Every 公司 CEO Dan Shipper 做过一个实验:
给 GPT-5.5 一个已经出故障的应用状态,让它尝试复现公司顶级工程师采用的修复方案。

结果是:
GPT-5.4 没做到,GPT-5.5 做到了。

英伟达一位提前使用的工程师甚至形容得更直接:

没了它,就像断了一条手臂。

这句话听着夸张,但用过之后能理解。它不是单纯会写几段代码,而是更擅长理解项目状态、分析错误链路、给出可执行的修复路径。

这对开发者来说,意义很大。

以前 AI 更像“代码补全工具”。
现在它越来越像一个可以一起排查问题的工程同事。


2. 长上下文终于不只是“放得下”

GPT-5.4 最大的问题之一,是长上下文看起来很大,但实际用起来经常有点尴尬。

简单说就是:
能放进去,但不一定找得回来。

到了 GPT-5.5,这个问题明显改善。

在 Graphwalks BFS 1M token 测试中,GPT-5.5 的得分从 GPT-5.4 的 9.4% 提升到 85% 以上。

这意味着什么?

不是单纯“上下文更长”,而是它真的开始做到:

  • 放得下
  • 找得到
  • 用得着

这点对写代码的人很重要。

因为真实项目不是一两个文件。
很多时候你要丢进去的是需求文档、接口说明、旧代码、错误日志、测试结果,甚至一整套历史变更记录。

以前模型经常前面看过,后面忘了。
现在 GPT-5.5 在长任务里的稳定性确实更像样了。


3. 它开始从“聊天工具”变成“执行工具”

Greg Brockman 展示过 Codex 配合 GPT-5.5 的能力:
通过自然语言直接生成应用、电子表格、幻灯片和营销材料。

这其实是一个很明显的信号:

OpenAI 不只是想让模型回答问题,而是想让它进入真实工作流。

OpenAI 内部也已经部署了多种 Workspace Agents,包括:

  • 代码审查
  • 产品反馈路由
  • 周度指标报告
  • 云端 7×24 小时自主运行任务

也就是说,AI 不再只是你打开网页问一句,它开始变成后台持续干活的“自动化员工”。

目前 GPT-5.5 已经面向 Plus、Pro、Business、Enterprise 用户开放。


二、Claude公开认错:过去两个月不是你多想,它确实“降智”了

如果你这两个月觉得 Claude Code 没以前聪明了,别怀疑自己。

这次 Anthropic 自己承认了。

4 月 23 日,Anthropic 发布了一份官方事故复盘报告,说明从 3 月到 4 月,Claude Code 的表现确实因为多个工程问题出现过持续恶化。

主要有三个问题。


1. 推理强度被调低了

第一个问题发生在 3 月 4 日到 4 月 7 日。

为了降低高推理模式下的响应延迟,Claude Code 团队把默认推理努力从 high 调到了 medium

结果很直接:
用户开始大规模反馈 Claude Code “明显变笨”。

后来 Anthropic 在 4 月 7 日回滚了这个改动。
目前 Opus 4.7 默认使用的是更高等级的 xhigh 推理模式。

这件事给我的感觉是:
模型能力是一回事,默认配置又是另一回事。

很多时候不是模型本身不行,而是服务端策略一变,用户体感就会完全不同。


2. 长对话里的“健忘”,来自一个缓存Bug

第二个问题更隐蔽,发生在 3 月 26 日到 4 月 10 日。

Claude Code 里有一个缓存清理 Bug。

原本设计是:用户空闲超过一小时后,系统才清除旧推理缓存,节省 token 成本。

但实际情况变成了:
每一轮对话都会持续丢弃推理区块。

结果就是 Claude 在长对话里反复出现“健忘”问题:

  • 前面刚说过的内容,后面又重复
  • 已经确认过的方案,下一轮又重新推
  • 多文件任务执行到一半,逻辑开始断层

更讽刺的是,这个 Bug 通过了代码审查、单元测试和端到端测试。

事后 Anthropic 用自己的 Code Review 工具回测,Claude Opus 4.7 成功检测出了这个 Bug,而 Opus 4.6 没发现。

这件事挺有代表性:
AI 工具越复杂,评测、回归测试、线上监控就越重要。


3. 系统提示限制过度,性能也会被拉低

第三个问题发生在 4 月 16 日到 4 月 20 日。

Anthropic 为了降低 Claude 的输出冗长度,在系统提示中加入了类似限制:

  • 工具调用回复不超过 25 字
  • 最终回复不超过 100 字

内部测试觉得没问题,但实际拉低了大约 3% 的性能表现。

这个改动已经在 4 月 20 日回滚。

这也说明一个问题:
模型不是越短越好,也不是越快越好。

尤其是编程场景,很多时候我们要的不是一句“可以修”,而是它能不能把原因、路径、边界条件讲清楚。


三、Claude还值得用吗?

我的答案是:
值得,但不能盲信。

Claude Code 过去两个月确实出过问题,但 Opus 4.7 依然很强。

尤其是在复杂重构、多文件项目、长周期工程任务里,Claude 的优势还在。

比如 SWE-bench Pro 上,Claude Opus 4.7 得分达到 64.3%。
在一些需要耐心、细致、逐步执行的工程任务里,它依然是我会优先考虑的工具之一。

Anthropic 这次也做了补偿:
换了新的产品负责人接手 Claude Code,并为所有付费用户统一重置了 5 月使用限额。

这事对用户来说,至少有一个好处:

Claude 的问题不再只是用户在社区里吐槽,而是官方开始公开承认、公开复盘、公开修复。

这种透明度,对重度开发者来说挺重要。


四、Gemini和Grok也在加速补位

除了 GPT-5.5 和 Claude,这周 Gemini 和 Grok 也有不少动向。


Gemini:生态优势越来越明显

谷歌在 Cloud Next ’26 大会上确认,将与苹果合作,基于 Gemini 打造新版 Siri。

同时,谷歌也将作为苹果的“首选云服务提供商”,参与下一代 Apple Foundation Models 的开发。

如果只看开发者日常使用,Gemini 现在最值得关注的还是 Workspace 生态更新。

比如:

  • Docs 的 Match doc format
  • Help me write 功能走出 beta
  • 图文混合内容处理
  • 设计稿转代码
  • 多模态理解

Gemini 3.1 的强项还是很清楚:
它不一定是最强代码模型,但它很适合处理多模态和 Google 生态里的复杂内容流。


Grok:语音和实时检索不错,但编程还要补课

Grok 这边,xAI 在 4 月 23 日发布了 Grok Voice Think Fast 1.0。

它在 τ-Voice Bench 语音基准中登顶,并且已经部署到 Starlink 客服场景中。

官方给出的数据也挺猛:

  • 自主解决率达到 70%
  • 销售转化率提升 20%

但到了编程场景,Grok 目前还没完全站稳。

彭博社近期爆料称,SpaceX 自家工程师在技术工作中并没有积极采用 Grok,原因是实际效果不如竞争对手工具。

xAI 内部也有部分员工在写代码时更愿意用 Claude 等替代产品,而不是 Grok。

马斯克本人也承认,xAI 在编程方面还落后,需要“从地基开始重建”。

不过 Grok Build 仍计划近期发布 Beta 版。
5 月 Grok 4.4 和 4.5 双版本连发的路线图目前也没有明显撤回迹象。
更长期的 Grok 5,则还在 Colossus 2 超算集群上训练中。

所以 Grok 现在更像是:

语音、实时信息、联网检索有优势,但编程能力还需要继续证明。


五、快速选型参考

模型核心优势更适合的场景需要注意
ChatGPT / GPT-5.5编程能力提升明显,100 万 token 长上下文更可用,token 消耗更省,Workspace Agents 可云端运行端到端自动化、长文档分析、代码生成、团队协作Plus / Pro 单独订阅成本不低
Claude Opus 4.7SWE-bench Pro 表现强,执行细,适合深度审查和复杂工程多文件重构、复杂代码审查、长周期工程任务曾出现过“降智”问题,虽已修复但仍需观察
Gemini 3.1多模态理解强,Workspace 生态整合深,和 Apple 合作带来想象空间设计稿转代码、图文混合处理、Google 全家桶用户代码能力不是唯一强项,更适合综合内容流
Grok语音能力强,实时联网检索快,适合信息查询语音交互、实时技术信息、客服场景编程能力尚未成熟,还在追赶

六、工具越来越强,但账单也越来越厚

这周最大的感受就是:

GPT-5.5 性能跃升很爽。
Claude 公开修复问题也算让人安心。
Gemini 的生态整合越来越深。
Grok 在语音和实时检索上也找到了自己的位置。

但问题也很现实:

每家的会员都不便宜。

如果 ChatGPT、Claude、Gemini、Grok 全都长期订阅,一年算下来不是小数。

对公司来说可能还好。
但对独立开发者、自由职业者、学生党、小团队来说,这笔账其实挺疼。

我的实际经验是:

高频工具长期用,低频工具按需开。

真正每天写代码时,一两个主力模型就够了。
偶尔要处理特殊任务,再临时开通或按需充值,反而更划算。

我目前自己用的是:

  • 主力写代码:ChatGPT / Claude
  • 多模态处理:Gemini
  • 实时信息查询:Grok
  • 低频工具:需要时再开

会员充值这块,我现在一般在 GPT68、com站点 上处理。

它的定位很简单,就是一个 AI 会员充值平台,可以充值 ChatGPT Plus、Claude Pro、Grok、Gemini Advanced 等主流 AI 工具会员。

对我来说最大的好处是:

不用反复折腾海外信用卡、绑卡、支付失败这些问题。
哪个工具要用,就开哪个。
不用为了偶尔用一次的模型,硬扛一整年的订阅成本。

工具该干活干活,我该省心省心。

后面我也会在公众号 「AI效率开挂局」 持续更新 AI 编程工具的组合玩法、模型实测和实际工作流案例。

七、写在最后

2026 年 4 月 26 日,我对 AI 编程工具最大的判断是:

它们正在快速分化。

GPT-5.5 证明了从零完整重训的价值。
长上下文更可用,代码能力更强,单位 token 成本也更低。

Claude 这次公开认错,虽然暴露了问题,但也展示了另一种产品姿态:
模型服务不是发出去就结束,而是要持续修复、持续复盘、持续向用户解释。

Gemini 正在用 Google 生态和 Apple 合作打开入口。
Grok 则需要继续在编程赛道上证明自己。

对开发者来说,接下来真正重要的不是盲目追每一个新模型。

而是知道:

  • 什么任务该用 GPT-5.5
  • 什么任务该用 Claude
  • 什么任务适合 Gemini
  • 什么任务可以交给 Grok
  • 哪些会员值得长期订
  • 哪些工具按需开就够了

工具越来越强,价格也越来越复杂。

但有一件事不会变:

只为真正能提升效率的工具付费,别为焦虑买单。

你现在的 AI 编程工具组合是什么?
GPT-5.5 用上了吗?
Claude 恢复之后,你还愿意继续用吗?欢迎评论区聊聊。