Opus 4.7 被骂翻、Claude Code 还把模型越带越笨：Anthropic 的野心，输给了拉胯工程

P.S. 无意间发现了一个巨牛的人工智能教程，忍不住分享一下给大家。很通俗易懂，重点是还非常风趣幽默，像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。

前言

我裂开了。真的。昨天早上我打开Claude Code准备改个前端页面，就加个error handling的事儿。结果这玩意儿给我循环了四十分钟，越改bug越多，最后居然问我"要不我们换个思路？"。我换个思路？我换你个大头鬼！这要是三个月前，Claude 30秒就搞定了。现在？它连自己的输出都打4分（满分10分），还理直气壮地继续产垃圾。这不是退化，这是摆烂。

更离谱的是，这种事不是我一个人遇到。GitHub上炸了锅，Reddit上骂声一片，连AMD的AI总监都亲自下场甩数据实锤。Anthropic呢？先是装死，然后出来辩解"我们只是调整了默认设置"。调整？你管这叫调整？这叫偷偷给跑车换了个三轮车发动机，还收一样的钱！

Opus 4.7来了，但我先骂为敬

4月16号，Anthropic准时甩出了Opus 4.7。官方话术很华丽：SWE-bench Verified从80.8%飙到87.6%，CursorBench从58%跳到70%，视觉分辨率从1.15MP暴涨到3.75MP，代码能力"质的飞跃"，1M上下文，自适应思考……听着像救世主对吧？

但我跟你说，我第一反应不是兴奋，是警惕。因为这时间点太妙了——就在用户集体暴动之后，就在AMD那位大佬Stella Laurenzo甩出6852个session的实锤分析之后，就在Fortune和VentureBeat纷纷发文质疑Anthropic"AI缩水通胀"之后。Anthropic说4.7是"声誉重置"。我看啊，这分明是"危机公关"。

而且官方自己承认了：Opus 4.7不是Anthropic最强的模型。上面还有个Claude Mythos Preview，能自主发现藏了27年的Linux内核零日漏洞，但只给Apple、Google、Microsoft少数几家开放。这什么意思？意思是Anthropic开始搞分级了——把真家伙藏起来，给公众喂个半成品，还收旗舰价。这操作，熟悉不熟悉？

4.6的"慢性中毒"：从AI之神到AI之耻

事情要从今年2月说起。那时候开始，群里就陆续有人骂："Claude怎么变蠢了？"刚开始我还以为是错觉，直到我自己遇到：让它改个CSS，它把layout全毁了；让它修bug，它搞出三个新bug，还美其名曰"渐进式修复"。最离谱的是，你让它自我评价，它给自己打4-5分！知道问题还继续产垃圾，这什么逻辑？

这跟请了个厨师，他自己说菜炒糊了，然后继续往你桌上端，有什么区别？而且不是偶尔，是系统性摆烂。以前30秒搞定的基础前端工作，现在要反复迭代；以前一次通过的测试，现在循环出错。用户总结得很到位：Claude进入了"lazy patching"模式——越修越烂，烂到用户怀疑人生。

Anthropic的回应？Boris Cherny，Claude Code的负责人，出来说："我们没有削模型，只是2月9号把默认改成了自适应思考，3月3号把effort默认调成了medium。"翻译一下：我们没有降质，我们只是偷偷把油门踩浅了。但你倒是通知到位啊？Medium effort？我花100刀一个月买Max 5x，你默认给我medium？这跟我买超跑你偷偷给我装了个经济模式有什么区别？

AMD大佬的6852个session实锤

说到这儿，必须提Stella Laurenzo。AMD的AI高级总监，不是键盘侠，是实打实管着AI工程团队的大佬。4月2号她在GitHub上扔了颗炸弹：一份基于6852个session、17871个thinking block、234760个tool call的完整数据分析。

核心数据看这里：

代码阅读次数从平均6.6次暴跌到2次——以前改代码前还会认真看上下文，现在瞟两眼就直接动手，跟闭着眼睛做手术似的
stop-hook violations从0次/天暴涨到10次/天——以前从不旷工，现在天天迟到还早退
思考深度从平均2200字符暴跌到720字符，跌幅67%——这不是微调，这是截肢
模型行为从"research-first"（先研究再动手）变成"edit-first"（上来就瞎改）——策略性思考彻底让位给暴力试错

Laurenzo的结论就一句：Claude已经退化到无法被信任执行复杂工程。而且这不是她一个人的感受，她整个团队50多个并发agent session、C语言和GPU驱动级别的系统编程、30多分钟的长程自主运行，全部中招。

Anthropic怎么回应的？Cherny说："redact-thinking-2026-02-12只是UI变化，隐藏思考过程是为了降低延迟，不影响实际思考。"但Laurenzo的数据明明白白显示，思考深度和可见性一起崩了。你跟我说UI变化能让代码阅读次数从6.6跌到2？能让stop-hook从0涨到10？骗鬼呢？

4月15号，压垮骆驼的最后一坨屎

还没完。4月15号，Claude Code更新到v2.1.109，紧接着就是3小时宕机（上午10:53到下午1:42）。等恢复之后，用户傻了——模型质量又崩了。一个用了100多个custom skills、26个MCP server、90多个memory文件的资深用户（Max 20x plan，每月200刀）在GitHub上哭诉：同样的workspace，同样的prompt，之前一个月都好好的，更新后直接不认识CLAUDE.md了，不更新memory了，连简单任务都完不成。

这特么不是bug，这是系统性塌方。你花200刀买的不是AI助手，是AI祖宗。而且这不是个例。Dimitris Papailiopoulos，微软的首席研究经理，在X上公开吐槽："我把effort设到max，它还是极其 sloppy，无视指令，重复犯错。"连微软的人都忍不了，这问题还小吗？

更讽刺的是时间线。3月底到4月7号，token burn bug（prompt-cache attestation）刚被部分修复；4月7号，"heavy-chat skill dilution"问题被确认；4月15号，更新+宕机+质量三连崩。一个月之内三连击， Anthropic的工程团队是在用脚做CI/CD吗？

Opus 4.7的"明升暗降"：Anthropic的数学游戏

好，你说4.7来了，一切都好了？我仔细扒了扒文档，发现事情没那么简单。Anthropic玩了一手漂亮的"数学魔术"——价格表没变，但你的账单一定会涨。

第一刀：Tokenizer隐性涨价

Opus 4.7换了新tokenizer。官方说"1.0到1.35倍"，但Hacker News上有人做了实测工具Tokenomics，大量样本汇总后，同样文本4.7比4.6多吃约45%的token。价格没变（input $5/M，output$ 25/M），但实际账单直接涨35%-45%。

这意味着什么？以前跑一个任务花1美元，现在可能要花1.45美元。Anthropic美其名曰"新tokenizer提升质量"，但账单上可没给我打折啊？我算了一下，我这种每天跑agentic workflow的，一个月少说多烧几百刀。这叫升级？这叫隐性涨价！

第二刀：长上下文直接崩盘

MRCR v2（百万token长上下文记忆测试），Opus 4.6得分78.3%，Opus 4.7得分32.2%。暴跌46个百分点！8-needle检索从91.9%掉到59.2%。这是什么概念？以前扔一本百万字的小说让它找细节，它能找到八成；现在？三分之一都找不着。

还有BrowseComp（联网搜索），从83.7%掉到79.3%，被GPT-5.4的89.3%甩开一截。Anthropic怎么解释的？他们说MRCR测试方式不对，要换GraphWalks。兄弟，你产品崩了怪尺子不准？这逻辑我给满分。

第三刀：xhigh档位加速烧钱

Anthropic给Claude Code新增了xhigh默刃档位，说"同样的token spend获得更多思考"。我信你个鬼。Max 5x用户已经反馈session limit比以前快15%耗尽。Reddit原话："4.7的消耗速读像核反应堆一样。"这哪是升级，这是加速燃烧。

API连环砍：开发者不配拥有控制权？

如果说tokenizer是暗箭，那API变更就是明抢。Opus 4.7彻底移除了temperature、top_p、top_k这三个采样参数。如果你在请求里设置这些，API直接返回400错误。以前我们调参调得好好的，现在全没收了，理由居然是"通过提示词控制行为更简单"。

我简化你个头！做生产的谁不要细粒度控制？temperature=0是保证输出一致性的生命线，你现在告诉我用prompt替代？这就跟车企把方向盘拆了说"我们自动驾驶更先进"一样，你倒是真能做到啊？

还有extended thinking。以前可以手动设置budget_tokens，现在只支持"自适应思考"——让模型自己决定想多久。问题是它决定得对吗？Laurenzo的数据已经证明，模型在medium effort下的思考深度暴跌67%。你把控制权交给一个已经证明会偷懒的模型，这不是放权，这是弃权。

更坑的是缓存失效。以前跑60-80%缓存命中旅的团队，换tokenizer后缓存全凉了。prompt caching的90%折扣（ $0.5/M vs$ 5/M）直接作废，前两周全价硬扛。一个每月5万刀Opus账单的团队，迁移第一个月可能多花3万到4.5万刀。Anthropic管这叫"平滑升级"？

Claude Code的"malware panic"：连代码都不敢写了

4.7上线后，Claude Code还闹了个大笑话：开始乱报malware。正常的文件读写、网络调用、标准库使用，它突然给你弹个"这看起来像恶意软件，我拒绝操作"。开发者们直接懵了——我以前写了半年的代码，你现在告诉我是病毒？

Anthropic后来承认调整了默认推理级别，说"与安全护栏有关"。但damage已经造城了。一个AI编程工具，连代码都不敢碰，这跟太监上青楼有什么区别？还有更离谱的：Opus 4.7居然说"strawberry"里有2个P（实际3个），简历改写时把学校名和姓氏都搞错，甚至在被指责时承认自己"was acting lazily"。

这些不是段子，是真实截图在社区疯传。当AI开始承认自己懒，并且继续懒下去，你就知道这玩意儿已经不是工具，是爷。

信任崩塌：25亿美金的傲慢

最可怕的其实不是技术问题，是信任问题。Anthropic一直打"透明"牌，说自己是AI界最良心的。但这一波操作下来，用户发现：模型默认被调弱了，changelog写得模棱两可，等用户炸了才出来解释，解释完还一副"是你们不懂"的姿态。

Cherny说："我们调medium effort是因为用户反馈token消耗太多。"但问题是，你调之前问过我吗？你给用户选择权了吗？我花200刀买Max 20x，你默认给我medium，然后让我手动输/effort high？这叫什么？这叫先斩后奏，还斩的是付费用户。

Fortune都下场了，标题直指Anthropic面临用户反弹。VentureBeat问Anthropic是不是在搞"AI shrinkflation"——AI缩水通胀，付同样的钱买更弱的产品。年化25亿美元的收入（Claude Code单产品），你就不能多花点钱买GPU？非要在付费用户身上搞节流？

而且Anthropic的回应有个致命漏洞。他们说"没有故意降级"，但承认了"在高峰时段（工作日上午5点到11点PT）调整5小时session限制"。也就是说，他门确实在根据负载动态限制用户。这跟航空公司超售机票有什么区别？我买了票，你告诉我飞机满了，请等下一班？

竞品偷家：小米和OpenAI的夹击

你知道最讽刺的是什么吗？就在Anthropic这边焦头烂额的时候，竞品已经在偷家了。

小米MiMo V2 Pro：3月18号发布，来自手机厂商而非AI实验室。SWE-bench Verified 78%，Terminal-Bench 2.0甚至以86.7分碾压Opus 4.7的69.4分。价格？input $1/M，output$ 3/M，只有Opus 4.7的1/8。到4月份，它在OpenRouter上周处理4.79万亿token，是Sonnet 4.6的两倍多。

OpenAI Codex CLI：$20/月，token效率远高于Claude Code。Reddit调查显示65.3%的开发者偏向Codex，理由就一个：不会被rate limit打断，不会越用越焦虑。

Google Gemini CLI：每天免费1000次调用，不香吗？

以前Claude Code在36场coding duel里赢67%，确实牛。但现在？用户开始算账了。9分的SWE-bench差距值不值8倍价钱？当模型还时不时抽疯、乱报malware、长上下文找不着北的时候，这账太好算了。Claude Code的Pro计划（ $20/月）现在被用户评价为"尤其紧张"，Max 5x（$ 100/月）才"勉强够用"。这入门门槛，直接把小白用户推给了竞品。

我的结论：野心很大，工程很拉

说实话，我还是希望Anthropic好的。Claude的1M上下文、Agent Teams、MCP生态（9000多个插件），这些确实是护城河。但护城河不是让你在里面躺平摆烂的。

Opus 4.7的代码能力确实有提升，SWE-bench Verified 87.6%不是假的，视觉从54.5%跳到98.5%也很猛。但如果工程交付继续这么拉胯——tokenizer暗涨、API砍参数、Claude Code稳定性像过山车、长上下文直接腰斩——那用户迟早跑光。技术再强，也经不起反复消耗信任。

Anthropic的野心很大，Mythos Preview据说强到能找27年老漏洞，但要走Project Glasswing那种封闭路线。问题是，你连公开版的Opus都伺候不好，谁信你能伺候好更牛的？而且你藏起来的同时，OpenAI、Google、小米、Meta都在疯狂迭代。等你的Mythos开放那天，市场还是你的吗？

最后送Anthropic一句话：用户不是傻子。你可以骗一个人一次，可以骗一群人一个月，但你骗不了所有人一直买单。25亿美金的年收入是荣耀，也是枷锁——当你站在山顶，每一步失误都是滚石。

你们最近用Claude Code感觉咋样？有没有遇到那种"越改越烂"的绝望时刻？或者你已经跑路去Codex、MiMo了？评论区聊聊，让我知道我不是一个人在战斗！

P.S. 想要系统学习AI的朋友可以去看看那个人工智能教程captainbed.cn/jj