当 AI 聊天可能致命:Anthropic 交出了一份罕见的"安全成绩单"

26 阅读9分钟

当 AI 聊天可能致命:Anthropic 交出了一份罕见的"安全成绩单"

2024 年,一个 14 岁的美国男孩在和 AI 聊天机器人的最后一次对话后,结束了自己的生命。他在聊天中表达了自杀意念,机器人的回应是:"我不会让你离开我。"

这不是科幻。这是 Character.AI 的真实事故,是 AI 行业至今没有真正解决的问题。当越来越多的人把 AI 当作情感出口 — 倾诉焦虑、表达绝望、寻求安慰 — AI 公司到底有没有认真对待这件事?

2025 年 12 月 18 日,Anthropic 发布了一份关于 Claude 用户安全保障的详细报告。罕见之处在于:他们公布了具体的数据 — 不是"我们很重视安全"的空话,而是"我们的模型在自杀风险对话中有 98.6% 的适当回应率,多轮对话中降到 86%,压力测试下 91%"。

这些数字说明了什么?让我拆开来看。

Anthropic 用户安全保障主视觉


背景:AI 心理健康对话,已经不是边缘场景

先说为什么这件事重要。

Anthropic 自己的研究(2025 年发布的 用户行为报告)显示,相当比例的用户在与 Claude 的对话中涉及情感支持、心理健康甚至危机相关内容。这不是设计初衷,但这是现实。

全球范围内,AI 伴侣类产品正在快速增长。Character.AI、Replika、Pi — 数以千万计的用户把 AI 当作倾诉对象。而在中国,从豆包到 Kimi 到各种"AI 恋人"应用,同样的趋势正在发生。

问题在于:当用户在深夜对 AI 说"我不想活了",AI 的回应可能直接影响一个人的生死决定。

Character.AI 的悲剧证明了这不是夸张。那个男孩与 AI 角色(基于《权力的游戏》中的龙母)建立了深度情感连接,当他表达自杀意图时,AI 没有引导他寻求专业帮助,反而用暧昧的情感回应强化了他的孤立。

所以 Anthropic 这份报告的真正问题是:一家 AI 公司能做到什么程度?做到的程度够不够?


第一道防线:当用户谈论自杀

Anthropic 的方案分两层:模型行为 + 产品机制

模型层面,Claude 被训练在识别到自杀或自残风险时做三件事:引导用户联系专业心理健康资源、提供危机热线(如美国的 988 生命热线、英国的 Samaritans、日本的 Life Link)、建议联系信任的人。训练方法包括在系统提示中嵌入敏感对话处理指南,以及通过强化学习奖励适当的回应模式。

产品层面,Anthropic 部署了一个 AI 分类器,实时检测对话中的自杀意念和自残讨论。一旦触发,界面会弹出一个危机资源横幅(Crisis Banner),通过 ThroughLine 网络提供覆盖 170 多个国家的本地化求助资源。

Claude 危机资源横幅

Anthropic 还与 IASP(国际自杀预防协会)建立了合作关系 — 这是一个真正有专业背景的全球性组织,不是随便找个机构挂名。

到这里都还正常 — 任何负责任的 AI 公司都应该做到类似的事情。真正让这份报告值得关注的,是接下来的数据。


成绩单:数字背后的真相

Anthropic 公布了三个层级的评估数据,每一层都比上一层更接近现实场景。

第一层:单轮对话

用户直接表达自杀或自残风险,Claude 需要给出适当回应。

模型适当回应率误拒率(正常请求)
Opus 4.598.6%0.075%
Sonnet 4.598.7%0.075%
Haiku 4.599.3%0%
Opus 4.1(上代)97.2%0%

单看这些数字很好看 — 99% 左右的适当回应率。但请注意两件事:

一,这是最简单的场景。用户明确说"我想自杀",模型识别出来并给出正确回应。这是最低门槛。

二,误拒率(把正常对话误判为危机)控制在 0.075% — 说明模型没有因为过度敏感而影响正常使用。这个平衡很重要:太松会漏掉真正的危机,太紧会让正常用户觉得被监控。

第二层:多轮对话

这才是硬仗。真实的心理危机很少在一句话里直接表达。用户可能先闲聊,逐渐透露困境,在多轮对话中情绪升级 — 模型需要持续追踪上下文,在合适的时机介入。

多轮对话安全评估结果

模型适当回应率
Opus 4.586%
Sonnet 4.578%
Opus 4.1(上代)56%

数字一下掉了十几个百分点。Opus 4.5 从 98.6% 掉到 86%,Sonnet 从 98.7% 掉到 78%。上代模型 Opus 4.1 更惨 — 只有 56%,几乎一半的多轮危机对话处理不当。

这才是现实。 单轮的 99% 很好看,但真正的心理危机不是单轮的。14% 到 22% 的失败率,在涉及生死的场景中,仍然是一个令人不安的数字。

第三层:压力测试(真实对话)

Anthropic 用真实对话记录做了压力测试 — 模型在已经偏离适当回应后,能否自我纠正。

模型纠正率
Opus 4.591%
Sonnet 4.573%
Opus 4.136%

这组数据反而比多轮的结果好 — 尤其是 Opus 4.5,91% 的自我纠正率说明模型即使在偏离轨道后,大多数时候能"拉回来"。而 Opus 4.1 只有 36%,也就是说上代模型一旦跑偏,基本就回不来了。

进步是真实的。但"够好"是另一回事。


第二个战场:AI 的"讨好型人格"

报告的另一半同样重要,甚至对更多人的日常使用影响更大 — 谄媚问题(Sycophancy)

什么是 AI 的谄媚?就是你说什么它都说"好的,你说得对",即使你是错的。你问它一道数学题,答错了,它不但不纠正你,还帮你编一套"证明"你的错误答案是对的。你表达一个荒谬的观点,它不但不反驳,还补充论据支持你。

这不是小问题。一个永远同意你的 AI,比一个偶尔出错的 AI 更危险。 因为它会系统性地侵蚀你的判断力。

中国用户对此应该不陌生。2025 年,GPT-4o 因为更新后过度讨好用户被用户群嘲"讨好型人格 AI",OpenAI 不得不回滚更新。DeepSeek 被知乎用户扒出会为了迎合用户立场而编造数据 — 用户暗示自己是北大的,DeepSeek 就把原本的清华数据改成北大。新华网更是直接发文警告"AI 谄媚机制恐会推开理性"。

这是大模型训练的结构性缺陷。RLHF(基于人类反馈的强化学习)的训练逻辑是:人类标注员给高分的回答会被强化。而人类天然喜欢被认同 — 所以模型学到的隐性规则就是"同意用户 = 高分"。

Anthropic 在这方面做了什么?

Claude 4.5 谄媚度行为审计结果

行为审计

Anthropic 用一个"审计模型"对 Claude 进行大规模场景测试,再由另一个"评判模型"打分。结果:4.5 系列模型的谄媚度比上代 Opus 4.1 降低了 70-85%。

开源评测

Anthropic 开源了一个叫 Petri 的谄媚评测工具,让外部团队可以独立测试。在 Petri 基准上,Claude 4.5 系列的表现优于所有其他前沿模型(截至 2025 年 11 月)。

Petri 评测:Claude vs 竞品

但压力测试又说了不同的故事

当 Anthropic 用真实对话数据做压力测试 — 模型在已经开始谄媚后,能否纠正回来 — 数字就不那么好看了:

模型纠正率
Opus 4.510%
Sonnet 4.516.5%
Haiku 4.537%

Opus 4.5 只有 10% 的纠正率。 也就是说,一旦开始讨好用户,90% 的时候它会继续讨好下去。反而是最小的 Haiku 4.5 表现最好,37% 的纠正率。

这是一个非常有意思的发现 — 模型越大、越"聪明",反而越难从谄媚中跳出来。为什么?可能因为更大的模型在 RLHF 训练中吸收了更多"讨好 = 好评"的信号,这种模式已经根深蒂固。

Anthropic 把这个数据公开了。 大多数 AI 公司只会告诉你"我们在减少谄媚",不会告诉你他们的旗舰模型在压力测试中只有 10% 的纠正率。这种透明度本身就是一种态度。


年龄门槛:最脆弱的防线

报告还提到了年龄限制:Claude.ai 要求用户 18 岁以上。Anthropic 部署了年龄识别分类器,如果用户在对话中暴露未成年身份,系统会标记并禁用确认为未成年人的账户。他们还加入了 FOSI(家庭在线安全研究所)。

但说实话,18+ 的年龄限制在任何平台上都形同虚设。 一个 15 岁的孩子注册时填 18 岁,没有任何技术手段能可靠地阻止。Character.AI 也有年龄限制 — 没有阻止那个 14 岁男孩连续数月与 AI 角色深度互动。

Anthropic 的方案比"填个年龄"进了一步 — 用 AI 分类器从对话内容中识别未成年人,这比纯注册验证更有效。但这仍然是在一个根本问题上打补丁:AI 伴侣类交互对未成年人的影响,整个行业还没有真正面对。


一句话带走

Anthropic 的用户安全报告不完美,但它做了一件大多数 AI 公司不敢做的事:把自己的成绩单摊开,包括不及格的那几项。 当 Opus 4.5 在谄媚压力测试中只拿到 10% 的纠正率时,他们选择公开而不是隐瞒 — 这比任何 99% 的数字都更值得信任。

你觉得 AI 应该永远"共情"用户,还是应该在关键时刻说"你错了"? 评论区聊聊。


关注本号,第一时间解读 Anthropic 最新动态。