这周 AI 编程圈有两件事挺值得聊。
一件是 OpenAI 放出了 GPT-5.5。
另一件是 Anthropic 公开承认 Claude Code 过去两个月确实出现过“降智”问题。
这两个消息放在一起看,很有意思。
一边是新模型越来越强,开始真正像“能干活的同事”;另一边是模型服务越来越复杂,稳定性、订阅成本、工具选择,正在变成开发者每天都要面对的问题。
所以这篇不吹,也不踩。
我就聊聊这周的真实使用感受,以及一个越来越现实的问题:
当每个模型都变强,但每个都要单独付费时,我们的钱包到底还能撑多久?
一、GPT-5.5来了:不只是更强,而是更像“同事”了
4 月 23 日,OpenAI 发布 GPT-5.5。
这次更新和以前那种“小修小补”不太一样。按照官方说法,GPT-5.5 是自 GPT-4.5 以来首个从零完整重训的基础模型,距离 GPT-5.4 发布仅 7 周。
我这周密集用下来,最明显的变化有三个。
1. 编程能力确实更能打了
从基准数据看,GPT-5.5 的代码能力提升很明显:
- Terminal-Bench 2.0:82.7%
- SWE-Bench Pro:58.6%
- Expert-SWE:73.1%
这些数据本身已经够亮眼,但更关键的是,它在真实工程场景里也更稳了。
Every 公司 CEO Dan Shipper 做过一个实验:
给 GPT-5.5 一个已经出故障的应用状态,让它尝试复现公司顶级工程师采用的修复方案。
结果是:
GPT-5.4 没做到,GPT-5.5 做到了。
英伟达一位提前使用的工程师甚至形容得更直接:
没了它,就像断了一条手臂。
这句话听着夸张,但用过之后能理解。它不是单纯会写几段代码,而是更擅长理解项目状态、分析错误链路、给出可执行的修复路径。
这对开发者来说,意义很大。
以前 AI 更像“代码补全工具”。
现在它越来越像一个可以一起排查问题的工程同事。
2. 长上下文终于不只是“放得下”
GPT-5.4 最大的问题之一,是长上下文看起来很大,但实际用起来经常有点尴尬。
简单说就是:
能放进去,但不一定找得回来。
到了 GPT-5.5,这个问题明显改善。
在 Graphwalks BFS 1M token 测试中,GPT-5.5 的得分从 GPT-5.4 的 9.4% 提升到 85% 以上。
这意味着什么?
不是单纯“上下文更长”,而是它真的开始做到:
- 放得下
- 找得到
- 用得着
这点对写代码的人很重要。
因为真实项目不是一两个文件。
很多时候你要丢进去的是需求文档、接口说明、旧代码、错误日志、测试结果,甚至一整套历史变更记录。
以前模型经常前面看过,后面忘了。
现在 GPT-5.5 在长任务里的稳定性确实更像样了。
3. 它开始从“聊天工具”变成“执行工具”
Greg Brockman 展示过 Codex 配合 GPT-5.5 的能力:
通过自然语言直接生成应用、电子表格、幻灯片和营销材料。
这其实是一个很明显的信号:
OpenAI 不只是想让模型回答问题,而是想让它进入真实工作流。
OpenAI 内部也已经部署了多种 Workspace Agents,包括:
- 代码审查
- 产品反馈路由
- 周度指标报告
- 云端 7×24 小时自主运行任务
也就是说,AI 不再只是你打开网页问一句,它开始变成后台持续干活的“自动化员工”。
目前 GPT-5.5 已经面向 Plus、Pro、Business、Enterprise 用户开放。
二、Claude公开认错:过去两个月不是你多想,它确实“降智”了
如果你这两个月觉得 Claude Code 没以前聪明了,别怀疑自己。
这次 Anthropic 自己承认了。
4 月 23 日,Anthropic 发布了一份官方事故复盘报告,说明从 3 月到 4 月,Claude Code 的表现确实因为多个工程问题出现过持续恶化。
主要有三个问题。
1. 推理强度被调低了
第一个问题发生在 3 月 4 日到 4 月 7 日。
为了降低高推理模式下的响应延迟,Claude Code 团队把默认推理努力从 high 调到了 medium。
结果很直接:
用户开始大规模反馈 Claude Code “明显变笨”。
后来 Anthropic 在 4 月 7 日回滚了这个改动。
目前 Opus 4.7 默认使用的是更高等级的 xhigh 推理模式。
这件事给我的感觉是:
模型能力是一回事,默认配置又是另一回事。
很多时候不是模型本身不行,而是服务端策略一变,用户体感就会完全不同。
2. 长对话里的“健忘”,来自一个缓存Bug
第二个问题更隐蔽,发生在 3 月 26 日到 4 月 10 日。
Claude Code 里有一个缓存清理 Bug。
原本设计是:用户空闲超过一小时后,系统才清除旧推理缓存,节省 token 成本。
但实际情况变成了:
每一轮对话都会持续丢弃推理区块。
结果就是 Claude 在长对话里反复出现“健忘”问题:
- 前面刚说过的内容,后面又重复
- 已经确认过的方案,下一轮又重新推
- 多文件任务执行到一半,逻辑开始断层
更讽刺的是,这个 Bug 通过了代码审查、单元测试和端到端测试。
事后 Anthropic 用自己的 Code Review 工具回测,Claude Opus 4.7 成功检测出了这个 Bug,而 Opus 4.6 没发现。
这件事挺有代表性:
AI 工具越复杂,评测、回归测试、线上监控就越重要。
3. 系统提示限制过度,性能也会被拉低
第三个问题发生在 4 月 16 日到 4 月 20 日。
Anthropic 为了降低 Claude 的输出冗长度,在系统提示中加入了类似限制:
- 工具调用回复不超过 25 字
- 最终回复不超过 100 字
内部测试觉得没问题,但实际拉低了大约 3% 的性能表现。
这个改动已经在 4 月 20 日回滚。
这也说明一个问题:
模型不是越短越好,也不是越快越好。
尤其是编程场景,很多时候我们要的不是一句“可以修”,而是它能不能把原因、路径、边界条件讲清楚。
三、Claude还值得用吗?
我的答案是:
值得,但不能盲信。
Claude Code 过去两个月确实出过问题,但 Opus 4.7 依然很强。
尤其是在复杂重构、多文件项目、长周期工程任务里,Claude 的优势还在。
比如 SWE-bench Pro 上,Claude Opus 4.7 得分达到 64.3%。
在一些需要耐心、细致、逐步执行的工程任务里,它依然是我会优先考虑的工具之一。
Anthropic 这次也做了补偿:
换了新的产品负责人接手 Claude Code,并为所有付费用户统一重置了 5 月使用限额。
这事对用户来说,至少有一个好处:
Claude 的问题不再只是用户在社区里吐槽,而是官方开始公开承认、公开复盘、公开修复。
这种透明度,对重度开发者来说挺重要。
四、Gemini和Grok也在加速补位
除了 GPT-5.5 和 Claude,这周 Gemini 和 Grok 也有不少动向。
Gemini:生态优势越来越明显
谷歌在 Cloud Next ’26 大会上确认,将与苹果合作,基于 Gemini 打造新版 Siri。
同时,谷歌也将作为苹果的“首选云服务提供商”,参与下一代 Apple Foundation Models 的开发。
如果只看开发者日常使用,Gemini 现在最值得关注的还是 Workspace 生态更新。
比如:
- Docs 的 Match doc format
- Help me write 功能走出 beta
- 图文混合内容处理
- 设计稿转代码
- 多模态理解
Gemini 3.1 的强项还是很清楚:
它不一定是最强代码模型,但它很适合处理多模态和 Google 生态里的复杂内容流。
Grok:语音和实时检索不错,但编程还要补课
Grok 这边,xAI 在 4 月 23 日发布了 Grok Voice Think Fast 1.0。
它在 τ-Voice Bench 语音基准中登顶,并且已经部署到 Starlink 客服场景中。
官方给出的数据也挺猛:
- 自主解决率达到 70%
- 销售转化率提升 20%
但到了编程场景,Grok 目前还没完全站稳。
彭博社近期爆料称,SpaceX 自家工程师在技术工作中并没有积极采用 Grok,原因是实际效果不如竞争对手工具。
xAI 内部也有部分员工在写代码时更愿意用 Claude 等替代产品,而不是 Grok。
马斯克本人也承认,xAI 在编程方面还落后,需要“从地基开始重建”。
不过 Grok Build 仍计划近期发布 Beta 版。
5 月 Grok 4.4 和 4.5 双版本连发的路线图目前也没有明显撤回迹象。
更长期的 Grok 5,则还在 Colossus 2 超算集群上训练中。
所以 Grok 现在更像是:
语音、实时信息、联网检索有优势,但编程能力还需要继续证明。
五、快速选型参考
| 模型 | 核心优势 | 更适合的场景 | 需要注意 |
|---|---|---|---|
| ChatGPT / GPT-5.5 | 编程能力提升明显,100 万 token 长上下文更可用,token 消耗更省,Workspace Agents 可云端运行 | 端到端自动化、长文档分析、代码生成、团队协作 | Plus / Pro 单独订阅成本不低 |
| Claude Opus 4.7 | SWE-bench Pro 表现强,执行细,适合深度审查和复杂工程 | 多文件重构、复杂代码审查、长周期工程任务 | 曾出现过“降智”问题,虽已修复但仍需观察 |
| Gemini 3.1 | 多模态理解强,Workspace 生态整合深,和 Apple 合作带来想象空间 | 设计稿转代码、图文混合处理、Google 全家桶用户 | 代码能力不是唯一强项,更适合综合内容流 |
| Grok | 语音能力强,实时联网检索快,适合信息查询 | 语音交互、实时技术信息、客服场景 | 编程能力尚未成熟,还在追赶 |
六、工具越来越强,但账单也越来越厚
这周最大的感受就是:
GPT-5.5 性能跃升很爽。
Claude 公开修复问题也算让人安心。
Gemini 的生态整合越来越深。
Grok 在语音和实时检索上也找到了自己的位置。
但问题也很现实:
每家的会员都不便宜。
如果 ChatGPT、Claude、Gemini、Grok 全都长期订阅,一年算下来不是小数。
对公司来说可能还好。
但对独立开发者、自由职业者、学生党、小团队来说,这笔账其实挺疼。
我的实际经验是:
高频工具长期用,低频工具按需开。
真正每天写代码时,一两个主力模型就够了。
偶尔要处理特殊任务,再临时开通或按需充值,反而更划算。
我目前自己用的是:
- 主力写代码:ChatGPT / Claude
- 多模态处理:Gemini
- 实时信息查询:Grok
- 低频工具:需要时再开
会员充值这块,我现在一般在 GPT68、com站点 上处理。
它的定位很简单,就是一个 AI 会员充值平台,可以充值 ChatGPT Plus、Claude Pro、Grok、Gemini Advanced 等主流 AI 工具会员。
对我来说最大的好处是:
不用反复折腾海外信用卡、绑卡、支付失败这些问题。
哪个工具要用,就开哪个。
不用为了偶尔用一次的模型,硬扛一整年的订阅成本。
工具该干活干活,我该省心省心。
后面我也会在公众号 「AI效率开挂局」 持续更新 AI 编程工具的组合玩法、模型实测和实际工作流案例。
七、写在最后
2026 年 4 月 26 日,我对 AI 编程工具最大的判断是:
它们正在快速分化。
GPT-5.5 证明了从零完整重训的价值。
长上下文更可用,代码能力更强,单位 token 成本也更低。
Claude 这次公开认错,虽然暴露了问题,但也展示了另一种产品姿态:
模型服务不是发出去就结束,而是要持续修复、持续复盘、持续向用户解释。
Gemini 正在用 Google 生态和 Apple 合作打开入口。
Grok 则需要继续在编程赛道上证明自己。
对开发者来说,接下来真正重要的不是盲目追每一个新模型。
而是知道:
- 什么任务该用 GPT-5.5
- 什么任务该用 Claude
- 什么任务适合 Gemini
- 什么任务可以交给 Grok
- 哪些会员值得长期订
- 哪些工具按需开就够了
工具越来越强,价格也越来越复杂。
但有一件事不会变:
只为真正能提升效率的工具付费,别为焦虑买单。
你现在的 AI 编程工具组合是什么?
GPT-5.5 用上了吗?
Claude 恢复之后,你还愿意继续用吗?欢迎评论区聊聊。