我把 Claude Code 切到 Fable 5，先别急着兴奋大家好，我是孟健。 Anthropic 在 6 月 9

大家好，我是孟健。

Anthropic 在 6 月 9 日发布了 Claude Fable 5 和 Claude Mythos 5，我当天就把自己的 Claude Code 切了过去。但这篇文章不是来劝你赶紧冲的。

切模型只要改一行配置，真正要改的是另外三样东西：任务写法、成本预期、长任务管理方式。这三样不改，换什么模型都一样。

Anthropic 官方发布 Fable 5 和 Mythos 5

01 我已经切了，但先别把它当免费升级

先交代我本地的状态，这是真实环境，不是截图摆拍：

$ claude --version
2.1.170 (Claude Code)

$ cat ~/.claude/settings.json | grep model
  "model": "claude-fable-5[1m]",

$ claude --print '只输出当前你使用的模型名称；如果无法知道，输出 unknown。'
claude-fable-5

切换本身没有任何门槛，settings.json 里把 model 改成 claude-fable-5 就行。但要把话说在前面：到目前为止，我只是已切换并做了基础确认——版本号对、模型名对、简单调用正常返回，仅此而已。

我还没有拿任何大型项目去系统性验证它，所以这篇文章里不会出现"我实测它强多少"这种话，等真做完验证我会单独写一篇。今天先把决策层面的事讲清楚。

另外几个官方事实也要交代，免得大家带着错误预期上车。Fable 5 是第一个 generally available 的 Mythos-class 模型，这个级别在 Opus class 之上。

它和 Mythos 5 是同一个底层模型的两种配置，区别在于 Fable 5 加了 cyber 和 biology 方向的 safeguards，而 Mythos 5 只开放给少数经过审查的合作伙伴，走 Project Glasswing 这类可信访问计划。

Claude Mythos 5 官方页面显示其受限访问

也就是说，普通开发者能摸到的天花板就是 Fable 5。

02 最容易误判的是订阅窗口和之后的账单

这是我觉得最多人会踩的坑：Fable 5 现在能在订阅里直接用，但这是临时的。

官方的安排是：6 月 9 日到 22 日，Fable 5 临时包含在 Pro / Max / Team / seat-based Enterprise 订阅里。6 月 23 日之后，如果容量不延期，它会从订阅中移除，后续使用要走 usage credits，等容量允许后再恢复为标准订阅模型。

官方定价文档给的 API 价格是 $10 / million input tokens，$ 50 / million output tokens。同一份文档还写了两个数字：prompt caching 对 input token 有 90% 折扣，US-only inference 在此基础上乘 1.1 倍——这两个数字都来自官方定价说明，不是我算出来的。

23 号之后的成本预期，我建议你现在就按三种情形想清楚，而不是到时候被动反应。第一种，窗口延期、订阅继续覆盖，那是白捡的，继续用。

第二种，按官方说法移出订阅、走 usage credits，

这时每次调用都是真金白银——按官方单价粗算一笔账，一个跑几小时的长任务，输出几十万 token 很正常，光 output 就可能是十几二十美元一次；

input 端靠 prompt caching 能压下来不少，但前提是你的任务结构稳定、上下文可复用。第三种，恢复为标准订阅模型但配额收紧，那就要在订阅额度内排优先级。

三种情形下结论一致：这个模型只配跑"大活"。拿 $50 / million output 的模型改 typo、写正则、调样式，纯属烧钱。

还有一点要知道：Fable 5 带 safeguards，检查范围包括当前消息、对话历史、memory、connector 内容、联网搜索结果和上传文件。

触发敏感请求时，系统可能自动把你切到 Claude Opus 4.8，Claude、Cowork、Claude Code 这些产品默认开着自动模型切换。

Claude Help 说明 Fable 5 触发 safeguards 后会切换模型

另外按官方说明，Mythos-class 模型要求 30 天数据保留用于 trust and safety，消费者计划没有新增变化，主要影响的是 ZDR 组织。做企业合规的同学注意一下。

03 它真正值钱的地方，是长任务

官方 webinar 对 Fable 5 的描述是 "works like a more seasoned engineer"：动手前先调查，能在数小时甚至数天里维持上下文，会自己验证自己的工作。

Anthropic 官方 webinar 将 Fable 5 描述为更成熟的工程师型模型

官方给的案例是 Stripe：5000 万行 Ruby 代码库的迁移，Fable 5 一天完成，人工估计需要一整个团队干两个月。

再强调一次，这个 5000 万行是 Anthropic 官方案例里的数字，不是我的实践，我也没有 5000 万行代码给它迁。

但这个案例透露的信号很明确：这个模型的设计目标是"接一个大任务，自己跑完"，而我们过去用 Claude Code 的习惯是"我盯着，它一步步干"。

这两种工作方式对模型的要求完全不同，对人的要求也完全不同。

Fable 5 官方页面强调长任务与复杂工作

过去模型跑长任务，最大的问题是中途跑偏你不知道、结果错了你也不知道。

如果 Fable 5 真像官方描述的那样能在长任务里自己调查、自己验证，那人的角色就从"监工"变成"发包方"。

监工只需要会喊停，发包方必须会写合同。

04 任务分级：哪些活配得上它

既然单价摆在那，第一件事就是给手头任务分级。我自己的分法是三档。

值得上 Fable 5 的：人干要超过半天、且影响面跨多个模块的活。

比如拖了几个月的大重构、框架或依赖的大版本迁移、给老项目补一整套测试、需要先读懂十几个文件才能下手的深层 bug 排查。

这类任务的共同点是调查成本高、链路长、中途状态多——恰好是官方宣传里长任务自治能力的主场。

不值得的：单文件小改动、改 typo、写正则、调样式、写一段独立的工具函数、问答式的"这段代码什么意思"。

这些活原来的模型干得一样好，便宜得多，而且你本来就会立刻 review，长任务自治能力完全用不上。

中间地带：code review、写技术文档、生成迁移方案这类。我的判定标准是两条。一，这个任务有没有可机器判定的验收标准？有测试命令兜底的，敢交给它跑长程；

只能靠人眼判断好坏的，模型再强你也省不了 review 时间。二，出错能不能低成本回滚？能回滚的放手干，不能回滚的——动生产数据、改公共 API——不管哪个模型都得人盯着。

一句话：按"人时成本"和"可验收程度"两个维度打分，双高的才喂给 Fable 5。

05 Claude Code 的提示词，要改成任务书

这是我切到 Fable 5 之后改得最狠的一件事：不再发"帮我把登录页改一下"这种话，而是发任务书。

模型能跑几小时，你的指令就得撑得起几小时——目标、边界、验收都得提前写死，否则它跑得越久，偏得越远。

我现在用的模板，可以直接抄：

# 任务：<一句话说清要交付什么>

## 目标
- <做完后世界变成什么样，用结果描述，不用动作描述>

## 边界
- 只允许改动：<目录/文件范围>
- 禁止改动：<数据库 schema / 公共 API / 配置文件等>
- 禁止引入新依赖，如确需，先停下来说明理由

## 验收标准
- <可机器判定的条件 1，如：所有现有测试通过>
- <可机器判定的条件 2，如：新增功能有对应测试覆盖>

## 测试命令
- pnpm test
- pnpm lint && pnpm build

## 回滚预案
- 全程在分支 feat/xxx 上工作，不碰 main
- 每完成一个独立步骤 commit 一次，保证任意节点可回退

## 汇报要求
- 结束时输出：改了哪些文件、为什么、测试结果原文
- 测试失败就如实报失败，禁止宣称"已完成"

每个模块为什么这么写，展开说一下。目标必须用结果描述而不是动作描述——"用户可以用手机号登录"是结果，"加一个登录接口"是动作。

动作描述会让模型干完动作就停，结果描述才能让它自己补齐中间缺的环节。

边界是防 scope creep 的：长任务里模型"顺手"重构无关代码是最常见的跑偏方式，白纸黑字写禁区，比事后撤销便宜得多。验收标准和测试命令是整份任务书的地基，

模型说"我做完了"不算数，测试命令的输出才算数——这也是为什么我把"测试结果原文"写进汇报要求：要原文，不要它的转述。

回滚预案是你敢放手的前提，任何一步可回退，你才输得起。

汇报要求最后那条看着多余，实际上是给模型的明确指令——把"如实报失败"写成任务要求，比事后发现它含糊其辞省心得多。

写一份这样的任务书要十分钟。但对一个可能跑几小时的任务来说，这十分钟是整个流程里杠杆率最高的十分钟。

06 我的建议：用它做大活，不做杂活

把我的判断摆出来。

第一，这两周的订阅窗口值得用，但要用在刀刃上。

拿它跑一个你拖了很久的大重构、一次跨模块的迁移、一份完整的测试补齐，每跑一个就记下：花了多长时间、返工几次、验收一次过没过。

别拿它干补注释、调样式这种杂活——杂活攒不出任何有效数据，还占额度。

第二，23 号是个决策点。

如果容量不延期，Fable 5 回到 usage credits 计费，那时候你需要的不是别人的评测，而是自己这两周攒下的那份数据：哪类任务它明显更强、强多少、值不值官方标价的 $10 /$ 50。

没有这份数据，到时候你只能在"跟风续费"和"拍脑袋放弃"之间二选一。

第三，也是我最想说的：模型升级是 Anthropic 的事，任务定义是你的事。

Fable 5 把"长任务自治"的能力交到了每个开发者手里，但它没法替你想清楚目标是什么、边界在哪、怎么算做完。

同一个模型，有人发一句"帮我优化下代码"，有人发一份带验收标准和回滚预案的任务书，跑出来是两个世界。

工具我已经切好了，一行配置的事。真正的分水岭从来不在 settings.json 里——在于你会不会把一个模糊的想法，写成一份机器可以执行、可以验收、可以回滚的任务书。

这个能力，模型再升三代也替代不了。

👋 我是孟健，前腾讯 T11 / 前字节技术 Leader，现在全职做 AI 编程。

🔥 更多 AI 编程实战：

GitHub：@mengjian-github
专栏：AI编程实战

觉得有用？点赞+收藏 就是最大支持 🙏