大家好,我是孟健。
Anthropic 在 6 月 9 日发布了 Claude Fable 5 和 Claude Mythos 5,我当天就把自己的 Claude Code 切了过去。但这篇文章不是来劝你赶紧冲的。
切模型只要改一行配置,真正要改的是另外三样东西:任务写法、成本预期、长任务管理方式。这三样不改,换什么模型都一样。
01 我已经切了,但先别把它当免费升级
先交代我本地的状态,这是真实环境,不是截图摆拍:
$ claude --version
2.1.170 (Claude Code)
$ cat ~/.claude/settings.json | grep model
"model": "claude-fable-5[1m]",
$ claude --print '只输出当前你使用的模型名称;如果无法知道,输出 unknown。'
claude-fable-5
切换本身没有任何门槛,settings.json 里把 model 改成 claude-fable-5 就行。但要把话说在前面:到目前为止,我只是已切换并做了基础确认——版本号对、模型名对、简单调用正常返回,仅此而已。
我还没有拿任何大型项目去系统性验证它,所以这篇文章里不会出现"我实测它强多少"这种话,等真做完验证我会单独写一篇。今天先把决策层面的事讲清楚。
另外几个官方事实也要交代,免得大家带着错误预期上车。Fable 5 是第一个 generally available 的 Mythos-class 模型,这个级别在 Opus class 之上。
它和 Mythos 5 是同一个底层模型的两种配置,区别在于 Fable 5 加了 cyber 和 biology 方向的 safeguards,而 Mythos 5 只开放给少数经过审查的合作伙伴,走 Project Glasswing 这类可信访问计划。
也就是说,普通开发者能摸到的天花板就是 Fable 5。
02 最容易误判的是订阅窗口和之后的账单
这是我觉得最多人会踩的坑:Fable 5 现在能在订阅里直接用,但这是临时的。
官方的安排是:6 月 9 日到 22 日,Fable 5 临时包含在 Pro / Max / Team / seat-based Enterprise 订阅里。6 月 23 日之后,如果容量不延期,它会从订阅中移除,后续使用要走 usage credits,等容量允许后再恢复为标准订阅模型。
官方定价文档给的 API 价格是 50 / million output tokens。同一份文档还写了两个数字:prompt caching 对 input token 有 90% 折扣,US-only inference 在此基础上乘 1.1 倍——这两个数字都来自官方定价说明,不是我算出来的。
23 号之后的成本预期,我建议你现在就按三种情形想清楚,而不是到时候被动反应。第一种,窗口延期、订阅继续覆盖,那是白捡的,继续用。
第二种,按官方说法移出订阅、走 usage credits,
这时每次调用都是真金白银——按官方单价粗算一笔账,一个跑几小时的长任务,输出几十万 token 很正常,光 output 就可能是十几二十美元一次;
input 端靠 prompt caching 能压下来不少,但前提是你的任务结构稳定、上下文可复用。第三种,恢复为标准订阅模型但配额收紧,那就要在订阅额度内排优先级。
三种情形下结论一致:这个模型只配跑"大活"。拿 $50 / million output 的模型改 typo、写正则、调样式,纯属烧钱。
还有一点要知道:Fable 5 带 safeguards,检查范围包括当前消息、对话历史、memory、connector 内容、联网搜索结果和上传文件。
触发敏感请求时,系统可能自动把你切到 Claude Opus 4.8,Claude、Cowork、Claude Code 这些产品默认开着自动模型切换。
另外按官方说明,Mythos-class 模型要求 30 天数据保留用于 trust and safety,消费者计划没有新增变化,主要影响的是 ZDR 组织。做企业合规的同学注意一下。
03 它真正值钱的地方,是长任务
官方 webinar 对 Fable 5 的描述是 "works like a more seasoned engineer":动手前先调查,能在数小时甚至数天里维持上下文,会自己验证自己的工作。
官方给的案例是 Stripe:5000 万行 Ruby 代码库的迁移,Fable 5 一天完成,人工估计需要一整个团队干两个月。
再强调一次,这个 5000 万行是 Anthropic 官方案例里的数字,不是我的实践,我也没有 5000 万行代码给它迁。
但这个案例透露的信号很明确:这个模型的设计目标是"接一个大任务,自己跑完",而我们过去用 Claude Code 的习惯是"我盯着,它一步步干"。
这两种工作方式对模型的要求完全不同,对人的要求也完全不同。
过去模型跑长任务,最大的问题是中途跑偏你不知道、结果错了你也不知道。
如果 Fable 5 真像官方描述的那样能在长任务里自己调查、自己验证,那人的角色就从"监工"变成"发包方"。
监工只需要会喊停,发包方必须会写合同。
04 任务分级:哪些活配得上它
既然单价摆在那,第一件事就是给手头任务分级。我自己的分法是三档。
值得上 Fable 5 的:人干要超过半天、且影响面跨多个模块的活。
比如拖了几个月的大重构、框架或依赖的大版本迁移、给老项目补一整套测试、需要先读懂十几个文件才能下手的深层 bug 排查。
这类任务的共同点是调查成本高、链路长、中途状态多——恰好是官方宣传里长任务自治能力的主场。
不值得的:单文件小改动、改 typo、写正则、调样式、写一段独立的工具函数、问答式的"这段代码什么意思"。
这些活原来的模型干得一样好,便宜得多,而且你本来就会立刻 review,长任务自治能力完全用不上。
中间地带:code review、写技术文档、生成迁移方案这类。我的判定标准是两条。一,这个任务有没有可机器判定的验收标准?有测试命令兜底的,敢交给它跑长程;
只能靠人眼判断好坏的,模型再强你也省不了 review 时间。二,出错能不能低成本回滚?能回滚的放手干,不能回滚的——动生产数据、改公共 API——不管哪个模型都得人盯着。
一句话:按"人时成本"和"可验收程度"两个维度打分,双高的才喂给 Fable 5。
05 Claude Code 的提示词,要改成任务书
这是我切到 Fable 5 之后改得最狠的一件事:不再发"帮我把登录页改一下"这种话,而是发任务书。
模型能跑几小时,你的指令就得撑得起几小时——目标、边界、验收都得提前写死,否则它跑得越久,偏得越远。
我现在用的模板,可以直接抄:
# 任务:<一句话说清要交付什么>
## 目标
- <做完后世界变成什么样,用结果描述,不用动作描述>
## 边界
- 只允许改动:<目录/文件范围>
- 禁止改动:<数据库 schema / 公共 API / 配置文件等>
- 禁止引入新依赖,如确需,先停下来说明理由
## 验收标准
- <可机器判定的条件 1,如:所有现有测试通过>
- <可机器判定的条件 2,如:新增功能有对应测试覆盖>
## 测试命令
- pnpm test
- pnpm lint && pnpm build
## 回滚预案
- 全程在分支 feat/xxx 上工作,不碰 main
- 每完成一个独立步骤 commit 一次,保证任意节点可回退
## 汇报要求
- 结束时输出:改了哪些文件、为什么、测试结果原文
- 测试失败就如实报失败,禁止宣称"已完成"
每个模块为什么这么写,展开说一下。目标必须用结果描述而不是动作描述——"用户可以用手机号登录"是结果,"加一个登录接口"是动作。
动作描述会让模型干完动作就停,结果描述才能让它自己补齐中间缺的环节。
边界是防 scope creep 的:长任务里模型"顺手"重构无关代码是最常见的跑偏方式,白纸黑字写禁区,比事后撤销便宜得多。验收标准和测试命令是整份任务书的地基,
模型说"我做完了"不算数,测试命令的输出才算数——这也是为什么我把"测试结果原文"写进汇报要求:要原文,不要它的转述。
回滚预案是你敢放手的前提,任何一步可回退,你才输得起。
汇报要求最后那条看着多余,实际上是给模型的明确指令——把"如实报失败"写成任务要求,比事后发现它含糊其辞省心得多。
写一份这样的任务书要十分钟。但对一个可能跑几小时的任务来说,这十分钟是整个流程里杠杆率最高的十分钟。
06 我的建议:用它做大活,不做杂活
把我的判断摆出来。
第一,这两周的订阅窗口值得用,但要用在刀刃上。
拿它跑一个你拖了很久的大重构、一次跨模块的迁移、一份完整的测试补齐,每跑一个就记下:花了多长时间、返工几次、验收一次过没过。
别拿它干补注释、调样式这种杂活——杂活攒不出任何有效数据,还占额度。
第二,23 号是个决策点。
如果容量不延期,Fable 5 回到 usage credits 计费,那时候你需要的不是别人的评测,而是自己这两周攒下的那份数据:哪类任务它明显更强、强多少、值不值官方标价的 50。
没有这份数据,到时候你只能在"跟风续费"和"拍脑袋放弃"之间二选一。
第三,也是我最想说的:模型升级是 Anthropic 的事,任务定义是你的事。
Fable 5 把"长任务自治"的能力交到了每个开发者手里,但它没法替你想清楚目标是什么、边界在哪、怎么算做完。
同一个模型,有人发一句"帮我优化下代码",有人发一份带验收标准和回滚预案的任务书,跑出来是两个世界。
工具我已经切好了,一行配置的事。真正的分水岭从来不在 settings.json 里——在于你会不会把一个模糊的想法,写成一份机器可以执行、可以验收、可以回滚的任务书。
这个能力,模型再升三代也替代不了。
👋 我是孟健,前腾讯 T11 / 前字节技术 Leader,现在全职做 AI 编程。
🔥 更多 AI 编程实战:
- GitHub:@mengjian-github
- 专栏:AI编程实战
觉得有用?点赞+收藏 就是最大支持 🙏