Claude 有了新"宪法"：谁来决定 AI 的道德准则？Anthropic 发布了 Claude 的新版"宪法"— 不

Claude 有了新"宪法"：谁来决定 AI 的道德准则？

如果 AI 有了自己的价值观，谁来决定这些价值观的内容？

这不是哲学问题。1 月 22 日，Anthropic 发布了 Claude 的新版"宪法"（Constitution） — 一份定义 AI 应该如何行为、如何思考、如何做道德判断的根本性文件。而且这份文件有一个让人意外的读者：它的主要读者不是人类，是 Claude 自己。

先解释背景。

Anthropic 在 2023 年提出了 Constitutional AI（宪法 AI）— 一种训练方法，通过一组明确的原则（"宪法"）来引导 AI 的行为。你可以理解为：不是让人类一条一条地告诉 AI "这个能做、那个不能做"，而是给它一套价值观框架，让它自己判断。

旧版宪法是一个清单 — 一条条规则堆起来。新版是一个推理框架 — 解释每条原则背后的"为什么"，让 Claude 能在全新场景下做出合理推断，而不是机械执行。

新宪法定义了 Claude 的行为优先级，从高到低：

注意顺序：安全 > 伦理 > 合规 > 有用。 "有帮助"排在最后一位。这意味着如果帮助用户和安全发生冲突，Claude 会选择安全。

这个优先级本身就是一个价值观声明 — Anthropic 认为 AI 首先应该是安全的，其次才是有用的。很多竞争对手的排序恰恰相反。

Anthropic 说了一句看似矛盾的话：

"虽然听起来很奇怪，但这份宪法的主要读者是 Claude 本身。"

这是什么意思？

在训练过程中，Claude 会根据宪法生成合成训练数据 — 它读宪法、理解原则、然后生成符合这些原则的回答，再用这些回答来训练自己。宪法不是一份外部约束，而是内化到模型中的价值观。

这也是为什么新版从"规则清单"变成了"推理框架" — 如果你只给 AI 规则，它只会在见过的场景中遵守规则。如果你给它规则背后的推理过程，它能在从未见过的场景中做出合理判断。

"如果我们希望模型在广泛的场景中做出好的判断，它们需要泛化 — 运用广泛的原则而不是机械地遵循具体规则。"

新宪法中对 Claude 的角色有一个非常精准的定义：

"Claude 可以像一个聪明的朋友，同时拥有医生、律师和财务顾问的知识，而且愿意坦率地说话。"

这句话很关键 — 它把 Claude 定位为"朋友"而不是"工具"。朋友会给你不想听的建议，工具只会执行命令。这也解释了 Anthropic 为什么强调减少"谄媚"（sycophancy） — 不能因为用户想听什么就说什么。

宪法区分了两类规则：

硬约束（hard constraints）：绝对不能做的事，比如帮助制造生物武器。没有灰色地带，没有例外。
软判断（flexible judgment）：大多数场景，Claude 需要在多个原则之间权衡。比如用户问一个医学问题 — 要有帮助（给出信息），也要安全（建议看医生），还要诚实（承认不确定性）。

有意思的是，Anthropic 自己承认：宪法是理想状态，实际模型行为和宪法之间存在差距。这份文件是方向，不是现实。

Claude 的宪法可能是目前公开发布的最详细的 AI 价值观文件。OpenAI 有 model spec，Google 有 AI principles，但都没有 Anthropic 这么系统化和透明。

而且它是 CC0 开源的 — 任何公司、任何研究者都可以直接拿去用。这是 Anthropic 在说：AI 的价值观框架不应该是私有的。

对中国 AI 行业来说，这是一个值得研究的范本。国内 AI 公司在"AI 应该如何行为"这个问题上，大多停留在内容安全审核（敏感词过滤）的层面。Anthropic 的宪法方法是从更根本的层面去定义 AI 的价值观 — 不是告诉它"不能说什么"，而是告诉它"应该怎么想"。

Claude 的新宪法不是一份规则手册 — 它是一份写给 AI 自己读的价值观教材。 从"清单"到"推理框架"的转变，标志着 AI 对齐研究从"约束行为"走向了"内化价值观"。

你觉得 AI 应该有自己的"道德准则"吗？还是说这只是人类的一厢情愿？评论区聊聊。

关注本号，第一时间解读 Anthropic 最新动态。