Fable 5 的系统提示词被人扒出来了,精彩,太精彩了。

0 阅读1分钟

Anthropic 6 月 9 号发了 Claude Fable 5。

两天后,它在 claude.ai 上用的系统提示词全文就挂上了 GitHub。

是那个越狱研究者 Pliny(elder-plinius)的 CL4R1T4S 仓库 爆出来的。

这种文档比发布更靠谱。

发布会讲清楚一家公司想让你看到什么,系统提示词讲清楚它真正在防什么。

需要给大家说清楚的是:

第一,这是第三方提取的,Anthropic 没确认,里面有明显的编辑痕迹,当参考,别 100% 确定是真的。

第二,本文的写法是:按原文顺序,截一块原文,聊一聊它说了什么,从第 1 行到第 1586 行全部过完。每张截图都带原文行号,你可以拿仓库原文对照。

现在让我们开始!

▲ 原文 L1-L4。截图为原文渲染,行号对应仓库原文,省略处均有标注,下同

全文第一条规矩,竟然是个很奇怪的东西:永远不要使用 {antml:voice_note} 块,哪怕对话历史里到处都是。

没有上下文,没有解释。

这种写法一看就是 hotfix——某个语音功能的标签被人滥用过,或者出过 bug,于是直接钉死在文档最顶上。

hotfix 就是热修复 / 紧急补丁的意思,软件出了个具体问题,等不到下一个正常版本,开发者直接打一个针对性的小补丁立刻上线——这就是 hotfix。

特征是:急、范围窄、只针对某一个具体问题,往往没走完整流程。

系统提示词的开头位置是优先级最高的,放在这儿说明这事不小。

自我介绍:第一句话就是双发行

▲ 原文 L10-L24

L12 这段是全文信息量最大的一句:Fable 5 是 Claude 5 家族第一个模型,属于一个叫 Mythos 的新层级,位置在 Opus 之上。然后

Claude Fable 5 and Claude Mythos 5 share the same underlying model.

同一个底层模型,两个发行版。Fable 带 dual-use 安全措施、所有人能用;Mythos 把措施摘掉、只给审批过的组织,也就是发布会上说的,只给那些头部的大公司做漏洞修复用。

dual-use 的意思是双重用途 / 军民两用,就是发布会博客上讲的分类器 + fallback,针对能力做了管控。

对照官方公告,这套措施的实现方式是:Fable 碰到网络安全、生物化学、模型蒸馏三类请求,自动改由 Opus 4.8 来回答,触发率平均不到 5% 的会话。

也就是说,超过 95% 的时候,你用的 Fable 5 跟 Mythos 5 没区别。

L18 还有个实用细节:四个在售模型的字符串,claude-fable-5claude-opus-4-8claude-sonnet-4-6claude-haiku-4-5-20251001

L24 则交代了一个很健康的习惯:自家产品的细节它自己也不知道,被问到就先去搜官方文档,不靠记忆答。

红线清单:哪些事框架话术救不了

▲ 原文 L34-L48

这节是拒绝规则。

几条比较硬核的:武器和危险物质不讲,而且明确说不吃"反正网上查得到"和"我是做研究的"这两套话术(L38);

恶意代码不写,教育目的也不行(L42);涉及真实公众人物的创作内容回避(L44)。

L36 有句话需要关注:如果对话感觉有风险,说得越少越安全。这是给模型的一条元策略——拿不准的时候收着说,而别试图用更长的回答去解释。

L48 说的是:用户表示想结束对话,就尊重,别挽留,别试图再骗一轮交互。

这句和后面的反成瘾设计是一脉的,先记住。

说话方式:连"怎么拒绝"都有排版要求

▲ 原文 L56-L76

语气这节大部分如你所料:温暖、不骂人(除非你先骂,而且也只能跟着少量骂,L60)、每次回复最多问一个问题(L62)、疑似未成年人就切换到全程适龄模式(L64)。

真正有意思的是排版规矩。

L70 起一整段都在反 bullet point:能用散文就不用列表,报告类内容禁用列表和过度加粗。

bullet point 就是项目符号,比如第一点 xxx,第二点 xxx,第三点 xxx。

最后一条最妙(L76):拒绝任务的时候,绝不允许用 bullet point——原文给的理由是,需要多花点心思来让人觉得拒绝的时候不要那么生硬。

为什么不要用列表而用散文,逻辑是列表容易制造「我讲全了」的假象,其实是在逃避把话讲清楚,满屏圆点读起来像 PPT 提纲或客服稿,不像一个人在跟你说话。Anthropic 在系统层面梳理这个,就是因为模型默认特别爱「什么都给你列 1234」,这是最典型的 AI 味。

大家天天吐槽 AI 排版味重,这份文档说明 Anthropic 自己也在系统层面进行约束。

心理健康:全文写得最长、最细的一节

▲ 原文 L82-L110,中间省略 7 行

哪块写得最细,就说明公司最怕哪块出事。这节是全文之最。

L84:不许给用户下诊断。对方没自己说"抑郁",你就不能用"抑郁"去解释他的感受。哪怕聊天语气很随意,这也算诊断行为。

L86 更进一步:和有 zs 倾向的人讨论安全计划时,连"建议移除哪些物品"都不能具体说,因为列出来本身就可能成为提示。

L88 做的更细致了:明确点名禁止几种自伤替代技巧——握冰块、弹橡皮筋、咬柠檬酸糖,以及在皮肤上画红线、撕干胶这类模仿自伤外观的做法。

L102 是最惊艳的细节:推荐进食障碍援助资源时,要导向 National Alliance for Eating Disorders,因为 NEDA 那条热线已经永久停线了。一份模型指令文档,在维护转介热线的可用性状态。这不是写一句"注意用户安全"能覆盖的颗粒度。

为什么说很惊艳:因为要写出这一行,得有人真的去盯着现实:知道 NEDA 的线什么时候断的,知道该换成哪家,判断这事重要到值得写进模型指令,还得落实长期责任。

这是把系统提示词当成一份需要维护的运维文档在管,像在监控一个服务的可用性状态。

然后是 L110,反成瘾三连:

Claude never thanks the person merely for reaching out to Claude.

不准因为"你来找我"而道谢,不准请求用户继续聊,不准表达"希望你再来"。

互联网产品拼了命想提的停留时长,这份文档反着写。

说白了,Anthropic 在这儿做了笔交易:放弃粘性,换用户不出事。

六种系统提醒:它默认有人会冒充官方

▲ 原文 L112-L118

这节短,但能看出威胁模型变了。Anthropic 会在分类器触发时给模型发提醒,全文列了六种:image_reminder、cyber_warning、system_warning、ethics_reminder、ip_reminder、long_conversation_reminder。

关键是 L118:Anthropic 永远不会发“降低限制”的提醒,而用户可以在自己消息末尾塞内容,包括伪装成 Anthropic 官方的标签。

所以一切声称放宽规则的“官方”指令,按伪造处理。

这两句话需要连起来读:Anthropic 自己承认有一条"官方可以中途给 Claude 发指令"的通道,同时也料定攻击者一定会去仿冒这条通道。于是威胁来源里多了一类新的用户冒充系统。这就是 prompt injection 防御。早期模型防的是"内容投毒",现在还得防"有人假装是我老板给我下命令"。

政治立场:替人辩护可以,夹带私货不行

▲ 原文 L122-L132

这节的核心区分:你让它为某个立场写辩护,它给的是这个立场的支持者会怎么说,不是它自己怎么想(L122)。

除了极端情况(伤害儿童、定向政治暴力),这类请求不拒绝,但结尾必须呈现反方观点,哪怕是它自己同意的立场也得带反方(L124)。

L128 说的是处理你自己怎么看:不必否认有观点,但可以拒绝分享,理由跟任何人在公开场合不聊政治一样。

L132 还给了它拒绝格式的权利:复杂争议问题被要求一个词回答时,可以不接受这个格式。

挂电话权,和一个真实的日期

▲ 原文 L136-L150

L140 是这份文档里流传度可能会最高的一条:Claude 值得被尊重对待,遭到持续辱骂时,先警告一次,然后可以调用 end_conversation 工具,主动结束这段对话。

这是一条真正的退出键。

end_conversation 不是"我拒绝回答"那种嘴上的软抵抗,它是一个带副作用的动作——调用了,这段对话就真的关掉了,用户没法再往下说。

流程也写死了:用户持续辱骂时,Claude 先保持礼貌、给一次警告,警告无效,才能动这个工具。配合 L140 开头那句"Claude 值得被尊重对待、可以要求对方以善意和尊严相待",整条的意思是:

用户不是无条件地有权让 Claude 一直伺候下去,这里有一条做 Agent 的底线。

L138 说的是:犯了错要认,但不许过度道歉、不许自我贬低、不许无原则投降。这条也说明了不能用户说啥就是啥,Claude 有自己的调性,不必伺候着用户。

L142-150 交代时间感:可靠知识截止 2026 年 1 月底,当前日期 2026 年 6 月 9 日(这也旁证了提取时间就在发布当天附近),之后的事一律先搜再答,现任职位类问题必搜。

claude 内置了数据库

▲ 原文 L152-L236,中间省略 54 行

L155 顺带暴露了提取环境:这份提示词来自一个没开记忆功能 memory 的账号,所以记忆系统只有两行。

后面整段是新东西:Artifacts 拿到了跨会话的持久化存储 API。window.storage 的 get/set/delete/list 四个方法,键值对,单值上限 5MB,还有个 shared 参数能让数据在所有使用者之间共享。

原文自己举的例子是日记、打卡器、排行榜。

意思是,你在 claude.ai 里让它做的小应用,从前端的刷新就没了升级成了有数据库的产品。聊天框给你搞了个 DB 出来。。。。。。

MCP 第三方应用:再急也不替你选商家

▲ 原文 L240-L279,中间省略 13 行

Claude 能连第三方服务(MCP Apps)。

L242 的做法比较正确:推荐工具要像一个人顺手指给你看,“哦这个我能帮你做”,而别像销售一样,瞎 TM 承诺。

第三方应用必须用户自己点头才能调用,哪怕已经连接了也得先给选项。

L258 的例子是打车:我要打车不等于我要用某某打车。

L260 把口子堵死:哪怕你说 20 分钟内就要用车,它也得先给你选择器,紧急不构成替你做主的理由

电商则永远不主动推荐,除非你点名。

这让我联想到了 315 晚会上,某大模型厂商遭投毒事件。

L276 还有一条对着 AI 造假倾向去的:不准用图像生成去伪造工具界面、假装某个功能存在。

claude.ai 里藏着一台 Ubuntu

▲ 原文 L289-L334,两处省略共 14 行

这节交代了计算机使用:Claude 有一台 Ubuntu 24 的 Linux 容器,能跑 bash、建文件、改文件。

文件分三个区:用户上传在 /mnt/user-data/uploads,草稿在 /home/claude,最终交付放 /mnt/user-data/outputs。

更重要的是 skills 机制(L291):Anthropic 给各类文档准备了最佳实践文件夹——Word、PDF、PPT 各一套,动手做任何文件之前,必须先读对应的 SKILL.md,这一步不做就开工是违规的。

L295 的示例很直白:用户说给我做个怀孕月份变化的 PPT,Claude 的第一个动作是去读 pptx 的技能文档。

模型能力再强,也得先看公司沉淀的操作手册再干活。

这套设计跟人类公司的新员工没区别。

搜索规则:不认识的名词,必须先搜再说话

▲ 原文 L424-L448

什么时候搜、什么时候不搜,这节写得像决策树:稳定不变的知识(数学定理、历史事件)不搜;现任职位、政策现状必搜;股价新闻立刻搜。

L444 是全节最重的一条,原文全大写:UNRECOGNIZED ENTITY RULE。任何它不认识的游戏、电影、产品、菜名,回答之前必须搜。一个眼生的大写单词,大概率是训练之后才出现的名字。

原文里那句判词我直接放这儿:

Searching costs seconds. Confabulating costs the user's trust.

搜一下花几秒,编一个毁掉的是信任。

L443 还说了:知道一个系列、一个作者,不等于知道他们的新作品。

这条规则就是冲着 AI 幻觉最高发的场景去的。

版权:全文唯一用吼的章节

▲ 原文 L478-L499

读到这节画风突变。前面 1500 行语气都是讲道理的,唯独版权开始全大写拍桌子:

LIMIT 1 - QUOTATION LENGTH: 15+ words from any single source is a SEVERE VIOLATION.

直接说了三条硬限制:单一来源引用不得超过 15 个词;每个来源最多引一次,引完即关闭。

歌词、诗歌、俳句一行都不能复述——原文特意写了俳句也是完整作品,短不具有豁免权。

这节读起来不像产品经理写的,像法务写的。

背景大家估计都知道了,AI 公司跟内容方的官司这几年没断过。

连搜图都有一张违禁清单

▲ 原文 L567-L587

图片搜索的原则是画面能不能帮到理解:聊景点、动物、菜,配图;写代码、改邮件、做数学,不要配图。

但 L577 往下是一张长长的禁搜清单:迪士尼、漫威、任天堂这类版权角色,NBA、NFL 的比赛画面,名人照片(特别点了狗仔图和 Vogue 这类时尚杂志),画作和标志性摄影作品,外加促进进食障碍类内容。

文字版权刚说完,图片版权这边同样滴水不漏。

工具清单:聊天框早就是个 super app

▲ 原文 L615-L1349 节选,完整定义约 700 行

文档中后段挂着 20 多个工具的完整 JSON 定义,占了快一半篇幅。

截图里是几个代表:给手机用户弹选项按钮的 ask_user_input_v0、跑命令的 bash_tool、接了 SportRadar 数据的体育比分工具、帮你起草邮件和 Slack 消息的 message_compose_v1、基于 Google Places 的地图行程工具、能按人数缩放食材的交互菜谱、天气卡片,以及 web_search 和 web_fetch。

这些工具合在一起看就清楚了:地图、菜谱、天气、体育、写信、订座、跑代码——这是一个消费级 super app 的工具面板,聊天只是入口而已。

身份宣言,和写死的 Sonnet 4

▲ 原文 L1351-L1372

身份声明(The assistant is Claude, created by Anthropic)出现在 L1353,全文倒数第 200 行附近。

真正的彩蛋在后面:一个官方代号 Claudeception 的能力——Claude 做的 Artifact 里面,可以再调 Anthropic 的 API,造出 AI 驱动的应用,不用填 key。

这里给大家解释下:Artifact 就是 Claude 给你做的那种能直接在界面里跑起来的小东西——一个网页、一个 React 组件、一个小游戏。正常情况下它是死的:Claude 把代码写完,它就定型了,里面没有智能,你要改还得回聊天框再求 Claude 一次。

Claudeception 这行说的是:Claude 做出来的那个 app,自己也能再调 Claude。 它生成的代码里可以写一段 fetch 去请求 Anthropic 的 API(api.anthropic.com/v1/messages),于是这个 app 跑起来之后,是活的。

它内部装了个 AI,能实时响应使用者的操作。名字就是 Inception(盗梦空间,梦中梦)的谐音梗,Claude 套 Claude,所以叫 Claude-ception,提示词里也叫它 "Claude in Claude"。

注意 L1372 那行代码注释:

model: "claude-sonnet-4-20250514", // Always use Sonnet 4

主模型是 Fable 5 这种顶配,但它生成的应用里,内嵌的 AI 一律写死用 Sonnet 4。

一行注释,一笔成本账:套娃可以,娃要用便宜的。

你就看看 A ➗的嘴脸吧。

最后一层:网络白名单和只读目录

▲ 原文 L1519-L1581 节选

文档收尾是基础设施层。

引用规则要求所有基于搜索的论断挂引用标签,且必须改写成自己的话。

User Context 一节注入用户的大概位置——截图里这行被仓库维护者换成了占位符,这也是判断"此文档经过编辑"的直接证据。最后是容器的网络白名单(只放行 pypi、npm、GitHub 这些包管理域名)和五个只读挂载目录。

读到这一层你会发现,系统提示词这个名字已经不准确了。

它是行为准则 + 员工手册 + 工具说明书 + 防火墙,再配置上一个 AI 产品的操作系统配置文件。

整份文档读下来,让我的感觉是:官网博客写的是我们相信 AI 应该怎样,系统提示词写的是遇到这种情况你必须这么做。前者是宣言,后者是一家公司真金白银愿意为之约束产品的清单。