Claude 有了新"宪法":谁来决定 AI 的道德准则?
如果 AI 有了自己的价值观,谁来决定这些价值观的内容?
这不是哲学问题。1 月 22 日,Anthropic 发布了 Claude 的新版"宪法"(Constitution) — 一份定义 AI 应该如何行为、如何思考、如何做道德判断的根本性文件。而且这份文件有一个让人意外的读者:它的主要读者不是人类,是 Claude 自己。
什么是 Claude 的"宪法"
先解释背景。
Anthropic 在 2023 年提出了 Constitutional AI(宪法 AI)— 一种训练方法,通过一组明确的原则("宪法")来引导 AI 的行为。你可以理解为:不是让人类一条一条地告诉 AI "这个能做、那个不能做",而是给它一套价值观框架,让它自己判断。
旧版宪法是一个清单 — 一条条规则堆起来。新版是一个推理框架 — 解释每条原则背后的"为什么",让 Claude 能在全新场景下做出合理推断,而不是机械执行。
四个优先级
新宪法定义了 Claude 的行为优先级,从高到低:
- 广泛安全 — 在 AI 发展阶段维持人类监督
- 广泛伦理 — 诚实、避免有害行为
- 遵守 Anthropic 的指南 — 具体的组织规定
- 真正有帮助 — 为用户创造价值
注意顺序:安全 > 伦理 > 合规 > 有用。 "有帮助"排在最后一位。这意味着如果帮助用户和安全发生冲突,Claude 会选择安全。
这个优先级本身就是一个价值观声明 — Anthropic 认为 AI 首先应该是安全的,其次才是有用的。很多竞争对手的排序恰恰相反。
最有意思的部分:"宪法是写给 Claude 的"
Anthropic 说了一句看似矛盾的话:
"虽然听起来很奇怪,但这份宪法的主要读者是 Claude 本身。"
这是什么意思?
在训练过程中,Claude 会根据宪法生成合成训练数据 — 它读宪法、理解原则、然后生成符合这些原则的回答,再用这些回答来训练自己。宪法不是一份外部约束,而是内化到模型中的价值观。
这也是为什么新版从"规则清单"变成了"推理框架" — 如果你只给 AI 规则,它只会在见过的场景中遵守规则。如果你给它规则背后的推理过程,它能在从未见过的场景中做出合理判断。
"如果我们希望模型在广泛的场景中做出好的判断,它们需要泛化 — 运用广泛的原则而不是机械地遵循具体规则。"
"像一个什么都懂的朋友"
新宪法中对 Claude 的角色有一个非常精准的定义:
"Claude 可以像一个聪明的朋友,同时拥有医生、律师和财务顾问的知识,而且愿意坦率地说话。"
这句话很关键 — 它把 Claude 定位为"朋友"而不是"工具"。朋友会给你不想听的建议,工具只会执行命令。这也解释了 Anthropic 为什么强调减少"谄媚"(sycophancy) — 不能因为用户想听什么就说什么。
硬约束 vs 软判断
宪法区分了两类规则:
- 硬约束(hard constraints):绝对不能做的事,比如帮助制造生物武器。没有灰色地带,没有例外。
- 软判断(flexible judgment):大多数场景,Claude 需要在多个原则之间权衡。比如用户问一个医学问题 — 要有帮助(给出信息),也要安全(建议看医生),还要诚实(承认不确定性)。
有意思的是,Anthropic 自己承认:宪法是理想状态,实际模型行为和宪法之间存在差距。这份文件是方向,不是现实。
为什么这对整个行业重要
Claude 的宪法可能是目前公开发布的最详细的 AI 价值观文件。OpenAI 有 model spec,Google 有 AI principles,但都没有 Anthropic 这么系统化和透明。
而且它是 CC0 开源的 — 任何公司、任何研究者都可以直接拿去用。这是 Anthropic 在说:AI 的价值观框架不应该是私有的。
对中国 AI 行业来说,这是一个值得研究的范本。国内 AI 公司在"AI 应该如何行为"这个问题上,大多停留在内容安全审核(敏感词过滤)的层面。Anthropic 的宪法方法是从更根本的层面去定义 AI 的价值观 — 不是告诉它"不能说什么",而是告诉它"应该怎么想"。
一句话带走
Claude 的新宪法不是一份规则手册 — 它是一份写给 AI 自己读的价值观教材。 从"清单"到"推理框架"的转变,标志着 AI 对齐研究从"约束行为"走向了"内化价值观"。
你觉得 AI 应该有自己的"道德准则"吗?还是说这只是人类的一厢情愿?评论区聊聊。
关注本号,第一时间解读 Anthropic 最新动态。