Anthropic 悄悄删掉了自己最硬的安全承诺Anthropic 删掉了最硬的安全承诺：不再保证"太危险就停"。换成了

Anthropic 悄悄删掉了自己最硬的安全承诺

同一周，Anthropic 对五角大楼说"我们在安全问题上绝不让步"，然后转头从自己的安全政策里删掉了那条最不可能让步的承诺。

这不是打脸。两件事都有各自的逻辑。但放在一起看，你能看到 AI 安全领域最核心的矛盾：当竞争对手不跟你一起"安全"时，你的安全承诺到底还值多少钱？

RSP v3.0 公告主视觉

发生了什么

2026 年 2 月 24 日，Anthropic 发布了 Responsible Scaling Policy（负责任扩展政策） 的第三个版本。

RSP 是 Anthropic 在 2023 年提出的自愿安全框架 — 简单说就是一套"如果 AI 变得太危险，我们该怎么办"的规则。它定义了 AI Safety Levels（AI 安全等级，ASL），每升一级就要求更严格的安全措施。

这次不是小修小补。v3.0 是全面重写。

删掉了什么：那条"刹车"承诺

RSP 原来有一条核心承诺，翻译成人话就是：

"如果我们的模型变得足够危险，而安全措施还没准备好，我们就停下来。不训练更强的模型，直到安全问题解决。"

这是整个 RSP 的灵魂。它的存在让 Anthropic 和其他 AI 公司有了本质区别 — 其他人都在说"我们会负责任地发展"，只有 Anthropic 说"我们会停下来"。

v3.0 把这条删了。

取而代之的是一个"双重条件"：只有当 Anthropic 同时满足两个条件 — ①在 AI 竞赛中领先，②存在实质性灾难风险 — 才会考虑暂停。

为什么？Anthropic 的解释很坦率：

如果我们暂停了，但其他公司继续推进且没有强安全措施，结果可能是一个更不安全的世界 — 最弱的安全标准反而成了行业标准。

换句话说：单方面裁军没有意义。

Anthropic 自己承认了什么

这篇公告罕见地坦诚。Anthropic 直接说了 RSP 前两版哪里没做好：

1. 能力阈值太模糊

原来的设计是：AI 能力到了某条线，就触发更高等级的安全措施。但实际操作中，这条"线"根本不清晰。生物武器能力就是一个典型 — 模型能通过快速评估，但更深入的实验室测试结果模棱两可。你说它过线了没有？说不清。

2. 政府比预期更慢

Anthropic 原本指望政府跟上来，制定行业性的安全法规。但现实是：美国政治风向转向了"竞争力优先"，安全立法进展缓慢。

3. 高级别安全措施一家做不了

ASL-4、ASL-5 这些高级别的安全标准，单靠 Anthropic 根本实现不了 — 需要行业协作甚至政府参与。但行业协作和政府参与都没到位。

Holden Karnofsky（Anthropic 董事会成员）在 LessWrong 上的辩护更直白：原来的 RSP 有"反效果"（perverse effects），硬性承诺可能把你绑在对安全实际上不利的事情上。他的原话：

"对未来的绑定性承诺，可能把你绑定在实际上不利于安全的事情上。"

新增了什么：从"硬承诺"到"透明度"

删掉刹车不意味着什么都不做了。v3.0 加了三样东西：

1. Frontier Safety Roadmap（前沿安全路线图）

公开声明的安全目标，覆盖四个方向：安全性、对齐、防护措施、政策。目标是"雄心勃勃但可实现的"。注意措辞 — 非绑定性（nonbinding）。

2. Risk Reports（风险报告）

每 3-6 个月发布一次详细的安全评估报告。这是实质性的进步 — 之前这些信息外界基本看不到。

3. External Review（外部审查）

第三方专家审查，有利益冲突保护，可以看到未删减或最少删减的内部文件。

METR（一家 AI 安全评估机构）的审查员 Chris Painter 在看完后的结论是："社会还没有为先进 AI 系统的灾难性风险做好准备。"

RSP 的"成绩单"

也不全是坏消息。Anthropic 列了 RSP 过去两年多做到的事：

ASL-3 在 2025 年 5 月正式启用，验证了框架的可行性
OpenAI 和 Google DeepMind 在几个月内采纳了类似框架
影响了多项立法：加州 SB 53、纽约 RAISE Act、欧盟 AI Act

RSP 的真正价值可能不在于 Anthropic 自己遵守了什么，而在于它推动了整个行业的安全意识。 但现在 Anthropic 自己在软化承诺，其他公司会跟着松懈吗？

同一周的三件事

把 RSP v3 放在这一周的时间线里看，非常有意思：

日期	事件	信号
2/24	RSP v3.0：删掉硬性暂停承诺	对内：变灵活
2/25	收购 Vercept	对外：加速扩张
2/26	对五角大楼说"不"	对外：坚守红线

一边软化内部安全承诺，一边强硬拒绝军方。这不是矛盾吗？

不完全是。两件事的逻辑其实是一致的：Anthropic 在重新定义什么是"安全"。

RSP 的硬承诺被放弃，不是因为 Anthropic 不在乎安全了，而是因为"单方面暂停"被证明不可行 — 你停了，别人不停，世界不会更安全。对五角大楼的"不"则是在另一个维度画线 — 不是关于训练速度，而是关于使用方式。

Anthropic 的新立场是：我不承诺停下来，但我承诺不让 AI 做某些事。 从"限速"变成了"限方向"。

你觉得这是务实的调整，还是安全承诺的滑坡？这个问题没有标准答案 — 但值得每一个关注 AI 安全的人认真想想。

一句话带走

Anthropic 删掉了"如果太危险就停下来"的承诺，换成了"我会告诉你我在做什么"。从硬承诺到透明度，这到底是进步还是倒退？

评论区聊聊：你更信任"我保证会停"的 AI 公司，还是"我保证会公开"的 AI 公司？

关注本号，第一时间解读 Anthropic 最新动态。