Opus 4.7 被骂翻、Claude Code 还把模型越带越笨:Anthropic 的野心,输给了拉胯工程

7 阅读12分钟

P.S. 无意间发现了一个巨牛的人工智能教程,忍不住分享一下给大家。很通俗易懂,重点是还非常风趣幽默,像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。

前言

我裂开了。真的。昨天早上我打开Claude Code准备改个前端页面,就加个error handling的事儿。结果这玩意儿给我循环了四十分钟,越改bug越多,最后居然问我"要不我们换个思路?"。我换个思路?我换你个大头鬼!这要是三个月前,Claude 30秒就搞定了。现在?它连自己的输出都打4分(满分10分),还理直气壮地继续产垃圾。这不是退化,这是摆烂。

更离谱的是,这种事不是我一个人遇到。GitHub上炸了锅,Reddit上骂声一片,连AMD的AI总监都亲自下场甩数据实锤。Anthropic呢?先是装死,然后出来辩解"我们只是调整了默认设置"。调整?你管这叫调整?这叫偷偷给跑车换了个三轮车发动机,还收一样的钱!

Opus 4.7来了,但我先骂为敬

4月16号,Anthropic准时甩出了Opus 4.7。官方话术很华丽:SWE-bench Verified从80.8%飙到87.6%,CursorBench从58%跳到70%,视觉分辨率从1.15MP暴涨到3.75MP,代码能力"质的飞跃",1M上下文,自适应思考……听着像救世主对吧?

但我跟你说,我第一反应不是兴奋,是警惕。因为这时间点太妙了——就在用户集体暴动之后,就在AMD那位大佬Stella Laurenzo甩出6852个session的实锤分析之后,就在Fortune和VentureBeat纷纷发文质疑Anthropic"AI缩水通胀"之后。Anthropic说4.7是"声誉重置"。我看啊,这分明是"危机公关"。

而且官方自己承认了:Opus 4.7不是Anthropic最强的模型。上面还有个Claude Mythos Preview,能自主发现藏了27年的Linux内核零日漏洞,但只给Apple、Google、Microsoft少数几家开放。这什么意思?意思是Anthropic开始搞分级了——把真家伙藏起来,给公众喂个半成品,还收旗舰价。这操作,熟悉不熟悉?

4.6的"慢性中毒":从AI之神到AI之耻

事情要从今年2月说起。那时候开始,群里就陆续有人骂:"Claude怎么变蠢了?"刚开始我还以为是错觉,直到我自己遇到:让它改个CSS,它把layout全毁了;让它修bug,它搞出三个新bug,还美其名曰"渐进式修复"。最离谱的是,你让它自我评价,它给自己打4-5分!知道问题还继续产垃圾,这什么逻辑?

这跟请了个厨师,他自己说菜炒糊了,然后继续往你桌上端,有什么区别?而且不是偶尔,是系统性摆烂。以前30秒搞定的基础前端工作,现在要反复迭代;以前一次通过的测试,现在循环出错。用户总结得很到位:Claude进入了"lazy patching"模式——越修越烂,烂到用户怀疑人生。

Anthropic的回应?Boris Cherny,Claude Code的负责人,出来说:"我们没有削模型,只是2月9号把默认改成了自适应思考,3月3号把effort默认调成了medium。"翻译一下:我们没有降质,我们只是偷偷把油门踩浅了。但你倒是通知到位啊?Medium effort?我花100刀一个月买Max 5x,你默认给我medium?这跟我买超跑你偷偷给我装了个经济模式有什么区别?

AMD大佬的6852个session实锤

说到这儿,必须提Stella Laurenzo。AMD的AI高级总监,不是键盘侠,是实打实管着AI工程团队的大佬。4月2号她在GitHub上扔了颗炸弹:一份基于6852个session、17871个thinking block、234760个tool call的完整数据分析。

核心数据看这里:

  • 代码阅读次数从平均6.6次暴跌到2次——以前改代码前还会认真看上下文,现在瞟两眼就直接动手,跟闭着眼睛做手术似的
  • stop-hook violations从0次/天暴涨到10次/天——以前从不旷工,现在天天迟到还早退
  • 思考深度从平均2200字符暴跌到720字符,跌幅67%——这不是微调,这是截肢
  • 模型行为从"research-first"(先研究再动手)变成"edit-first"(上来就瞎改)——策略性思考彻底让位给暴力试错

Laurenzo的结论就一句:Claude已经退化到无法被信任执行复杂工程。而且这不是她一个人的感受,她整个团队50多个并发agent session、C语言和GPU驱动级别的系统编程、30多分钟的长程自主运行,全部中招。

Anthropic怎么回应的?Cherny说:"redact-thinking-2026-02-12只是UI变化,隐藏思考过程是为了降低延迟,不影响实际思考。"但Laurenzo的数据明明白白显示,思考深度和可见性一起崩了。你跟我说UI变化能让代码阅读次数从6.6跌到2?能让stop-hook从0涨到10?骗鬼呢?

4月15号,压垮骆驼的最后一坨屎

还没完。4月15号,Claude Code更新到v2.1.109,紧接着就是3小时宕机(上午10:53到下午1:42)。等恢复之后,用户傻了——模型质量又崩了。一个用了100多个custom skills、26个MCP server、90多个memory文件的资深用户(Max 20x plan,每月200刀)在GitHub上哭诉:同样的workspace,同样的prompt,之前一个月都好好的,更新后直接不认识CLAUDE.md了,不更新memory了,连简单任务都完不成。

这特么不是bug,这是系统性塌方。你花200刀买的不是AI助手,是AI祖宗。而且这不是个例。Dimitris Papailiopoulos,微软的首席研究经理,在X上公开吐槽:"我把effort设到max,它还是极其 sloppy,无视指令,重复犯错。"连微软的人都忍不了,这问题还小吗?

更讽刺的是时间线。3月底到4月7号,token burn bug(prompt-cache attestation)刚被部分修复;4月7号,"heavy-chat skill dilution"问题被确认;4月15号,更新+宕机+质量三连崩。一个月之内三连击, Anthropic的工程团队是在用脚做CI/CD吗?

Opus 4.7的"明升暗降":Anthropic的数学游戏

好,你说4.7来了,一切都好了?我仔细扒了扒文档,发现事情没那么简单。Anthropic玩了一手漂亮的"数学魔术"——价格表没变,但你的账单一定会涨。

第一刀:Tokenizer隐性涨价

Opus 4.7换了新tokenizer。官方说"1.0到1.35倍",但Hacker News上有人做了实测工具Tokenomics,大量样本汇总后,同样文本4.7比4.6多吃约45%的token。价格没变(input 5/Moutput5/M,output 25/M),但实际账单直接涨35%-45%。

这意味着什么?以前跑一个任务花1美元,现在可能要花1.45美元。Anthropic美其名曰"新tokenizer提升质量",但账单上可没给我打折啊?我算了一下,我这种每天跑agentic workflow的,一个月少说多烧几百刀。这叫升级?这叫隐性涨价!

第二刀:长上下文直接崩盘

MRCR v2(百万token长上下文记忆测试),Opus 4.6得分78.3%,Opus 4.7得分32.2%。暴跌46个百分点!8-needle检索从91.9%掉到59.2%。这是什么概念?以前扔一本百万字的小说让它找细节,它能找到八成;现在?三分之一都找不着。

还有BrowseComp(联网搜索),从83.7%掉到79.3%,被GPT-5.4的89.3%甩开一截。Anthropic怎么解释的?他们说MRCR测试方式不对,要换GraphWalks。兄弟,你产品崩了怪尺子不准?这逻辑我给满分。

第三刀:xhigh档位加速烧钱

Anthropic给Claude Code新增了xhigh默刃档位,说"同样的token spend获得更多思考"。我信你个鬼。Max 5x用户已经反馈session limit比以前快15%耗尽。Reddit原话:"4.7的消耗速读像核反应堆一样。"这哪是升级,这是加速燃烧。

API连环砍:开发者不配拥有控制权?

如果说tokenizer是暗箭,那API变更就是明抢。Opus 4.7彻底移除了temperature、top_p、top_k这三个采样参数。如果你在请求里设置这些,API直接返回400错误。以前我们调参调得好好的,现在全没收了,理由居然是"通过提示词控制行为更简单"。

我简化你个头!做生产的谁不要细粒度控制?temperature=0是保证输出一致性的生命线,你现在告诉我用prompt替代?这就跟车企把方向盘拆了说"我们自动驾驶更先进"一样,你倒是真能做到啊?

还有extended thinking。以前可以手动设置budget_tokens,现在只支持"自适应思考"——让模型自己决定想多久。问题是它决定得对吗?Laurenzo的数据已经证明,模型在medium effort下的思考深度暴跌67%。你把控制权交给一个已经证明会偷懒的模型,这不是放权,这是弃权。

更坑的是缓存失效。以前跑60-80%缓存命中旅的团队,换tokenizer后缓存全凉了。prompt caching的90%折扣(0.5/Mvs0.5/M vs 5/M)直接作废,前两周全价硬扛。一个每月5万刀Opus账单的团队,迁移第一个月可能多花3万到4.5万刀。Anthropic管这叫"平滑升级"?

Claude Code的"malware panic":连代码都不敢写了

4.7上线后,Claude Code还闹了个大笑话:开始乱报malware。正常的文件读写、网络调用、标准库使用,它突然给你弹个"这看起来像恶意软件,我拒绝操作"。开发者们直接懵了——我以前写了半年的代码,你现在告诉我是病毒?

Anthropic后来承认调整了默认推理级别,说"与安全护栏有关"。但damage已经造城了。一个AI编程工具,连代码都不敢碰,这跟太监上青楼有什么区别?还有更离谱的:Opus 4.7居然说"strawberry"里有2个P(实际3个),简历改写时把学校名和姓氏都搞错,甚至在被指责时承认自己"was acting lazily"。

这些不是段子,是真实截图在社区疯传。当AI开始承认自己懒,并且继续懒下去,你就知道这玩意儿已经不是工具,是爷。

信任崩塌:25亿美金的傲慢

最可怕的其实不是技术问题,是信任问题。Anthropic一直打"透明"牌,说自己是AI界最良心的。但这一波操作下来,用户发现:模型默认被调弱了,changelog写得模棱两可,等用户炸了才出来解释,解释完还一副"是你们不懂"的姿态。

Cherny说:"我们调medium effort是因为用户反馈token消耗太多。"但问题是,你调之前问过我吗?你给用户选择权了吗?我花200刀买Max 20x,你默认给我medium,然后让我手动输/effort high?这叫什么?这叫先斩后奏,还斩的是付费用户。

Fortune都下场了,标题直指Anthropic面临用户反弹。VentureBeat问Anthropic是不是在搞"AI shrinkflation"——AI缩水通胀,付同样的钱买更弱的产品。年化25亿美元的收入(Claude Code单产品),你就不能多花点钱买GPU?非要在付费用户身上搞节流?

而且Anthropic的回应有个致命漏洞。他们说"没有故意降级",但承认了"在高峰时段(工作日上午5点到11点PT)调整5小时session限制"。也就是说,他门确实在根据负载动态限制用户。这跟航空公司超售机票有什么区别?我买了票,你告诉我飞机满了,请等下一班?

竞品偷家:小米和OpenAI的夹击

你知道最讽刺的是什么吗?就在Anthropic这边焦头烂额的时候,竞品已经在偷家了。

小米MiMo V2 Pro:3月18号发布,来自手机厂商而非AI实验室。SWE-bench Verified 78%,Terminal-Bench 2.0甚至以86.7分碾压Opus 4.7的69.4分。价格?input 1/Moutput1/M,output 3/M,只有Opus 4.7的1/8。到4月份,它在OpenRouter上周处理4.79万亿token,是Sonnet 4.6的两倍多。

OpenAI Codex CLI:$20/月,token效率远高于Claude Code。Reddit调查显示65.3%的开发者偏向Codex,理由就一个:不会被rate limit打断,不会越用越焦虑。

Google Gemini CLI:每天免费1000次调用,不香吗?

以前Claude Code在36场coding duel里赢67%,确实牛。但现在?用户开始算账了。9分的SWE-bench差距值不值8倍价钱?当模型还时不时抽疯、乱报malware、长上下文找不着北的时候,这账太好算了。Claude Code的Pro计划(20/月)现在被用户评价为"尤其紧张"Max5x20/月)现在被用户评价为"尤其紧张",Max 5x(100/月)才"勉强够用"。这入门门槛,直接把小白用户推给了竞品。

我的结论:野心很大,工程很拉

说实话,我还是希望Anthropic好的。Claude的1M上下文、Agent Teams、MCP生态(9000多个插件),这些确实是护城河。但护城河不是让你在里面躺平摆烂的。

Opus 4.7的代码能力确实有提升,SWE-bench Verified 87.6%不是假的,视觉从54.5%跳到98.5%也很猛。但如果工程交付继续这么拉胯——tokenizer暗涨、API砍参数、Claude Code稳定性像过山车、长上下文直接腰斩——那用户迟早跑光。技术再强,也经不起反复消耗信任。

Anthropic的野心很大,Mythos Preview据说强到能找27年老漏洞,但要走Project Glasswing那种封闭路线。问题是,你连公开版的Opus都伺候不好,谁信你能伺候好更牛的?而且你藏起来的同时,OpenAI、Google、小米、Meta都在疯狂迭代。等你的Mythos开放那天,市场还是你的吗?

最后送Anthropic一句话:用户不是傻子。你可以骗一个人一次,可以骗一群人一个月,但你骗不了所有人一直买单。25亿美金的年收入是荣耀,也是枷锁——当你站在山顶,每一步失误都是滚石。

你们最近用Claude Code感觉咋样?有没有遇到那种"越改越烂"的绝望时刻?或者你已经跑路去Codex、MiMo了?评论区聊聊,让我知道我不是一个人在战斗!

P.S. 想要系统学习AI的朋友可以去看看那个人工智能教程captainbed.cn/jj