Anthropic 悄悄删掉了自己最硬的安全承诺
同一周,Anthropic 对五角大楼说"我们在安全问题上绝不让步",然后转头从自己的安全政策里删掉了那条最不可能让步的承诺。
这不是打脸。两件事都有各自的逻辑。但放在一起看,你能看到 AI 安全领域最核心的矛盾:当竞争对手不跟你一起"安全"时,你的安全承诺到底还值多少钱?
发生了什么
2026 年 2 月 24 日,Anthropic 发布了 Responsible Scaling Policy(负责任扩展政策) 的第三个版本。
RSP 是 Anthropic 在 2023 年提出的自愿安全框架 — 简单说就是一套"如果 AI 变得太危险,我们该怎么办"的规则。它定义了 AI Safety Levels(AI 安全等级,ASL),每升一级就要求更严格的安全措施。
这次不是小修小补。v3.0 是全面重写。
删掉了什么:那条"刹车"承诺
RSP 原来有一条核心承诺,翻译成人话就是:
"如果我们的模型变得足够危险,而安全措施还没准备好,我们就停下来。不训练更强的模型,直到安全问题解决。"
这是整个 RSP 的灵魂。它的存在让 Anthropic 和其他 AI 公司有了本质区别 — 其他人都在说"我们会负责任地发展",只有 Anthropic 说"我们会停下来"。
v3.0 把这条删了。
取而代之的是一个"双重条件":只有当 Anthropic 同时满足两个条件 — ①在 AI 竞赛中领先,②存在实质性灾难风险 — 才会考虑暂停。
为什么?Anthropic 的解释很坦率:
如果我们暂停了,但其他公司继续推进且没有强安全措施,结果可能是一个更不安全的世界 — 最弱的安全标准反而成了行业标准。
换句话说:单方面裁军没有意义。
Anthropic 自己承认了什么
这篇公告罕见地坦诚。Anthropic 直接说了 RSP 前两版哪里没做好:
1. 能力阈值太模糊
原来的设计是:AI 能力到了某条线,就触发更高等级的安全措施。但实际操作中,这条"线"根本不清晰。生物武器能力就是一个典型 — 模型能通过快速评估,但更深入的实验室测试结果模棱两可。你说它过线了没有?说不清。
2. 政府比预期更慢
Anthropic 原本指望政府跟上来,制定行业性的安全法规。但现实是:美国政治风向转向了"竞争力优先",安全立法进展缓慢。
3. 高级别安全措施一家做不了
ASL-4、ASL-5 这些高级别的安全标准,单靠 Anthropic 根本实现不了 — 需要行业协作甚至政府参与。但行业协作和政府参与都没到位。
Holden Karnofsky(Anthropic 董事会成员)在 LessWrong 上的辩护 更直白:原来的 RSP 有"反效果"(perverse effects),硬性承诺可能把你绑在对安全实际上不利的事情上。他的原话:
"对未来的绑定性承诺,可能把你绑定在实际上不利于安全的事情上。"
新增了什么:从"硬承诺"到"透明度"
删掉刹车不意味着什么都不做了。v3.0 加了三样东西:
1. Frontier Safety Roadmap(前沿安全路线图)
公开声明的安全目标,覆盖四个方向:安全性、对齐、防护措施、政策。目标是"雄心勃勃但可实现的"。注意措辞 — 非绑定性(nonbinding)。
2. Risk Reports(风险报告)
每 3-6 个月发布一次详细的安全评估报告。这是实质性的进步 — 之前这些信息外界基本看不到。
3. External Review(外部审查)
第三方专家审查,有利益冲突保护,可以看到未删减或最少删减的内部文件。
METR(一家 AI 安全评估机构)的审查员 Chris Painter 在看完后的结论是:"社会还没有为先进 AI 系统的灾难性风险做好准备。"
RSP 的"成绩单"
也不全是坏消息。Anthropic 列了 RSP 过去两年多做到的事:
- ASL-3 在 2025 年 5 月正式启用,验证了框架的可行性
- OpenAI 和 Google DeepMind 在几个月内采纳了类似框架
- 影响了多项立法:加州 SB 53、纽约 RAISE Act、欧盟 AI Act
RSP 的真正价值可能不在于 Anthropic 自己遵守了什么,而在于它推动了整个行业的安全意识。 但现在 Anthropic 自己在软化承诺,其他公司会跟着松懈吗?
同一周的三件事
把 RSP v3 放在这一周的时间线里看,非常有意思:
| 日期 | 事件 | 信号 |
|---|---|---|
| 2/24 | RSP v3.0:删掉硬性暂停承诺 | 对内:变灵活 |
| 2/25 | 收购 Vercept | 对外:加速扩张 |
| 2/26 | 对五角大楼说"不" | 对外:坚守红线 |
一边软化内部安全承诺,一边强硬拒绝军方。这不是矛盾吗?
不完全是。两件事的逻辑其实是一致的:Anthropic 在重新定义什么是"安全"。
RSP 的硬承诺被放弃,不是因为 Anthropic 不在乎安全了,而是因为"单方面暂停"被证明不可行 — 你停了,别人不停,世界不会更安全。对五角大楼的"不"则是在另一个维度画线 — 不是关于训练速度,而是关于使用方式。
Anthropic 的新立场是:我不承诺停下来,但我承诺不让 AI 做某些事。 从"限速"变成了"限方向"。
你觉得这是务实的调整,还是安全承诺的滑坡?这个问题没有标准答案 — 但值得每一个关注 AI 安全的人认真想想。
一句话带走
Anthropic 删掉了"如果太危险就停下来"的承诺,换成了"我会告诉你我在做什么"。从硬承诺到透明度,这到底是进步还是倒退?
评论区聊聊:你更信任"我保证会停"的 AI 公司,还是"我保证会公开"的 AI 公司?
关注本号,第一时间解读 Anthropic 最新动态。