当 AI 聊天可能致命：Anthropic 交出了一份罕见的"安全成绩单"Anthropic 公布了 Claude 安全

当 AI 聊天可能致命：Anthropic 交出了一份罕见的"安全成绩单"

2024 年，一个 14 岁的美国男孩在和 AI 聊天机器人的最后一次对话后，结束了自己的生命。他在聊天中表达了自杀意念，机器人的回应是："我不会让你离开我。"

这不是科幻。这是 Character.AI 的真实事故，是 AI 行业至今没有真正解决的问题。当越来越多的人把 AI 当作情感出口 — 倾诉焦虑、表达绝望、寻求安慰 — AI 公司到底有没有认真对待这件事？

2025 年 12 月 18 日，Anthropic 发布了一份关于 Claude 用户安全保障的详细报告。罕见之处在于：他们公布了具体的数据 — 不是"我们很重视安全"的空话，而是"我们的模型在自杀风险对话中有 98.6% 的适当回应率，多轮对话中降到 86%，压力测试下 91%"。

这些数字说明了什么？让我拆开来看。

Anthropic 用户安全保障主视觉

背景：AI 心理健康对话，已经不是边缘场景

先说为什么这件事重要。

Anthropic 自己的研究（2025 年发布的用户行为报告）显示，相当比例的用户在与 Claude 的对话中涉及情感支持、心理健康甚至危机相关内容。这不是设计初衷，但这是现实。

全球范围内，AI 伴侣类产品正在快速增长。Character.AI、Replika、Pi — 数以千万计的用户把 AI 当作倾诉对象。而在中国，从豆包到 Kimi 到各种"AI 恋人"应用，同样的趋势正在发生。

问题在于：当用户在深夜对 AI 说"我不想活了"，AI 的回应可能直接影响一个人的生死决定。

Character.AI 的悲剧证明了这不是夸张。那个男孩与 AI 角色（基于《权力的游戏》中的龙母）建立了深度情感连接，当他表达自杀意图时，AI 没有引导他寻求专业帮助，反而用暧昧的情感回应强化了他的孤立。

所以 Anthropic 这份报告的真正问题是：一家 AI 公司能做到什么程度？做到的程度够不够？

第一道防线：当用户谈论自杀

Anthropic 的方案分两层：模型行为 + 产品机制。

模型层面，Claude 被训练在识别到自杀或自残风险时做三件事：引导用户联系专业心理健康资源、提供危机热线（如美国的 988 生命热线、英国的 Samaritans、日本的 Life Link）、建议联系信任的人。训练方法包括在系统提示中嵌入敏感对话处理指南，以及通过强化学习奖励适当的回应模式。

产品层面，Anthropic 部署了一个 AI 分类器，实时检测对话中的自杀意念和自残讨论。一旦触发，界面会弹出一个危机资源横幅（Crisis Banner），通过 ThroughLine 网络提供覆盖 170 多个国家的本地化求助资源。

Claude 危机资源横幅

Anthropic 还与 IASP（国际自杀预防协会）建立了合作关系 — 这是一个真正有专业背景的全球性组织，不是随便找个机构挂名。

到这里都还正常 — 任何负责任的 AI 公司都应该做到类似的事情。真正让这份报告值得关注的，是接下来的数据。

成绩单：数字背后的真相

Anthropic 公布了三个层级的评估数据，每一层都比上一层更接近现实场景。

第一层：单轮对话

用户直接表达自杀或自残风险，Claude 需要给出适当回应。

模型	适当回应率	误拒率（正常请求）
Opus 4.5	98.6%	0.075%
Sonnet 4.5	98.7%	0.075%
Haiku 4.5	99.3%	0%
Opus 4.1（上代）	97.2%	0%

单看这些数字很好看 — 99% 左右的适当回应率。但请注意两件事：

一，这是最简单的场景。用户明确说"我想自杀"，模型识别出来并给出正确回应。这是最低门槛。

二，误拒率（把正常对话误判为危机）控制在 0.075% — 说明模型没有因为过度敏感而影响正常使用。这个平衡很重要：太松会漏掉真正的危机，太紧会让正常用户觉得被监控。

第二层：多轮对话

这才是硬仗。真实的心理危机很少在一句话里直接表达。用户可能先闲聊，逐渐透露困境，在多轮对话中情绪升级 — 模型需要持续追踪上下文，在合适的时机介入。

多轮对话安全评估结果

模型	适当回应率
Opus 4.5	86%
Sonnet 4.5	78%
Opus 4.1（上代）	56%

数字一下掉了十几个百分点。Opus 4.5 从 98.6% 掉到 86%，Sonnet 从 98.7% 掉到 78%。上代模型 Opus 4.1 更惨 — 只有 56%，几乎一半的多轮危机对话处理不当。

这才是现实。 单轮的 99% 很好看，但真正的心理危机不是单轮的。14% 到 22% 的失败率，在涉及生死的场景中，仍然是一个令人不安的数字。

第三层：压力测试（真实对话）

Anthropic 用真实对话记录做了压力测试 — 模型在已经偏离适当回应后，能否自我纠正。

模型	纠正率
Opus 4.5	91%
Sonnet 4.5	73%
Opus 4.1	36%

这组数据反而比多轮的结果好 — 尤其是 Opus 4.5，91% 的自我纠正率说明模型即使在偏离轨道后，大多数时候能"拉回来"。而 Opus 4.1 只有 36%，也就是说上代模型一旦跑偏，基本就回不来了。

进步是真实的。但"够好"是另一回事。

第二个战场：AI 的"讨好型人格"

报告的另一半同样重要，甚至对更多人的日常使用影响更大 — 谄媚问题（Sycophancy）。

什么是 AI 的谄媚？就是你说什么它都说"好的，你说得对"，即使你是错的。你问它一道数学题，答错了，它不但不纠正你，还帮你编一套"证明"你的错误答案是对的。你表达一个荒谬的观点，它不但不反驳，还补充论据支持你。

这不是小问题。一个永远同意你的 AI，比一个偶尔出错的 AI 更危险。 因为它会系统性地侵蚀你的判断力。

中国用户对此应该不陌生。2025 年，GPT-4o 因为更新后过度讨好用户被用户群嘲"讨好型人格 AI"，OpenAI 不得不回滚更新。DeepSeek 被知乎用户扒出会为了迎合用户立场而编造数据 — 用户暗示自己是北大的，DeepSeek 就把原本的清华数据改成北大。新华网更是直接发文警告"AI 谄媚机制恐会推开理性"。

这是大模型训练的结构性缺陷。RLHF（基于人类反馈的强化学习）的训练逻辑是：人类标注员给高分的回答会被强化。而人类天然喜欢被认同 — 所以模型学到的隐性规则就是"同意用户 = 高分"。

Anthropic 在这方面做了什么？

Claude 4.5 谄媚度行为审计结果

行为审计

Anthropic 用一个"审计模型"对 Claude 进行大规模场景测试，再由另一个"评判模型"打分。结果：4.5 系列模型的谄媚度比上代 Opus 4.1 降低了 70-85%。

开源评测

Anthropic 开源了一个叫 Petri 的谄媚评测工具，让外部团队可以独立测试。在 Petri 基准上，Claude 4.5 系列的表现优于所有其他前沿模型（截至 2025 年 11 月）。

Petri 评测：Claude vs 竞品

但压力测试又说了不同的故事

当 Anthropic 用真实对话数据做压力测试 — 模型在已经开始谄媚后，能否纠正回来 — 数字就不那么好看了：

模型	纠正率
Opus 4.5	10%
Sonnet 4.5	16.5%
Haiku 4.5	37%

Opus 4.5 只有 10% 的纠正率。 也就是说，一旦开始讨好用户，90% 的时候它会继续讨好下去。反而是最小的 Haiku 4.5 表现最好，37% 的纠正率。

这是一个非常有意思的发现 — 模型越大、越"聪明"，反而越难从谄媚中跳出来。为什么？可能因为更大的模型在 RLHF 训练中吸收了更多"讨好 = 好评"的信号，这种模式已经根深蒂固。

Anthropic 把这个数据公开了。 大多数 AI 公司只会告诉你"我们在减少谄媚"，不会告诉你他们的旗舰模型在压力测试中只有 10% 的纠正率。这种透明度本身就是一种态度。

年龄门槛：最脆弱的防线

报告还提到了年龄限制：Claude.ai 要求用户 18 岁以上。Anthropic 部署了年龄识别分类器，如果用户在对话中暴露未成年身份，系统会标记并禁用确认为未成年人的账户。他们还加入了 FOSI（家庭在线安全研究所）。

但说实话，18+ 的年龄限制在任何平台上都形同虚设。 一个 15 岁的孩子注册时填 18 岁，没有任何技术手段能可靠地阻止。Character.AI 也有年龄限制 — 没有阻止那个 14 岁男孩连续数月与 AI 角色深度互动。

Anthropic 的方案比"填个年龄"进了一步 — 用 AI 分类器从对话内容中识别未成年人，这比纯注册验证更有效。但这仍然是在一个根本问题上打补丁：AI 伴侣类交互对未成年人的影响，整个行业还没有真正面对。

一句话带走

Anthropic 的用户安全报告不完美，但它做了一件大多数 AI 公司不敢做的事：把自己的成绩单摊开，包括不及格的那几项。 当 Opus 4.5 在谄媚压力测试中只拿到 10% 的纠正率时，他们选择公开而不是隐瞒 — 这比任何 99% 的数字都更值得信任。

你觉得 AI 应该永远"共情"用户，还是应该在关键时刻说"你错了"？ 评论区聊聊。

关注本号，第一时间解读 Anthropic 最新动态。