AI-Native 大语言模型安全——LLM 风险的双重属性：内在脆弱性与恶意行为者正如我们在前两章中所看到的，大语言模

正如我们在前两章中所看到的，大语言模型（LLM）正在彻底改变我们与 AI 交互的方式，但与此同时，它们也带来了显著的安全挑战。本章将深入探讨与 LLM 相关风险的双重性质：一方面，是源自其设计与训练过程的内在脆弱性；另一方面，是来自试图利用这些强大工具的恶意行为者所带来的恶意威胁。这些风险与传统软件漏洞有着本质差异。传统安全问题通常源于编码错误或系统配置不当，因此可以通过打补丁来修复；而 LLM 的漏洞往往深嵌在模型架构与训练过程本身之中。比如，SQL 注入漏洞可以通过更新代码修复，而要解决一个 LLM 中的偏差问题，可能需要用不同数据对整个模型重新训练，这是一项复杂得多、资源消耗也大得多的工作。

在本章中，你将全面理解这些风险，并学习到用于缓解它们的实用策略。我们将通过真实案例与假设场景，说明这些风险如何显现，并如何影响不同类型的应用。到本章结束时，你将具备以下能力：识别并评估 LLM 中的内在脆弱性；识别并防御针对 LLM 的恶意威胁；在开发与部署过程中应用保护 LLM 的关键原则；以及为 LLM 技术的负责任发展作出贡献。

对于任何参与基于 LLM 系统的开发、部署或管理工作的人来说，这些知识都至关重要。它将帮助你以“安全优先”的思维方式来推进 LLM 项目，从而构建更安全、更值得信赖的 AI 应用。

在本章中，我们将讨论以下主题：

内在脆弱性：模型不透明性、偏差与不可预测性
恶意威胁：数据投毒、模型窃取与输出操控
真实案例：医疗偏差与社交媒体内容审核
保护 LLM 的关键原则

内在脆弱性：模型不透明性、偏差与不可预测性

随着我们对 LLM 领域的理解不断深入，会越来越清楚地看到：这些强大工具尽管具有革命性，但并非没有显著的内在脆弱性。在 LLM 与安全的语境下，内在脆弱性指的是那些根植于模型本性、设计方式或基础特征之中的弱点或潜在失效点。不同于可以通过传统网络安全手段缓解的外部威胁，这些脆弱性源自 LLM 的工作机制与构建方式本身。

本节将重点讨论三个关键问题领域：模型不透明性、偏差与不可预测性。对于开发者、政策制定者和用户而言，理解这些脆弱性至关重要，因为只有这样，我们才能推动 AI 系统朝着更可靠、更负责任的方向发展。通过识别这些内在挑战，我们可以制定风险缓解策略，在尽量减少潜在伤害的同时，最大化释放 LLM 技术的价值。

模型不透明性

模型不透明性，通常也被称为 LLM 的“黑箱”特征，指的是：我们难以理解和解释这些复杂系统内部是如何运作的，以及它们是如何作出决策的。LLM 的这一特性带来了若干重大挑战：

缺乏可解释性（Lack of interpretability） ：难以理解 LLM 是如何生成某个特定输出的，这构成了一个重大障碍，尤其是在那些高度依赖可解释性的应用场景中。例如，在医疗诊断场景里，一个 LLM 可能会建议某种治疗方案，但却无法给出清晰的理由说明。这种缺乏透明性的情况，会阻碍医护人员依据既有医学实践和患者个体情况来验证该建议。决策过程中的不透明性会削弱信任、问责能力，以及识别并纠正模型推理错误的能力。
隐藏的失效模式（Hidden failure modes） ：LLM 的复杂性可能掩盖潜在的失效模式或边界案例，而这些问题往往只有在特定、且通常较为罕见的情况下才会暴露出来。一个由 LLM 驱动的客服聊天机器人，可能在大多数情况下表现良好，但当面对某种独特组合的客户提问时，却可能发生灾难性失败。这类失败有可能损害公司的声誉与客户关系。尤其是在那些把可靠性视为首要前提的关键应用中，这类隐藏的失效模式可能带来意料之外且潜在有害的后果。
审计困难（Difficulty in auditing） ：由于缺乏透明性，很难对 LLM 进行审计，以识别潜在问题，包括偏差或安全漏洞。例如，金融机构如果用 LLM 做风险评估，可能会难以向监管机构证明其模型在贷款审批中没有歧视特定人群。再比如，一个基于历史招聘数据训练出来的 LLM，可能会把某些职业与特定性别绑定起来。这种审计困难会带来合规问题，也会使组织难以确认模型的行为是否符合伦理与法律要求。

偏差

在 LLM 的语境中，偏差（bias） 指的是模型输出中存在的系统性错误或偏见，这些错误会不公平地偏向或歧视某些群体、立场或观念。这种偏差可能源于多个来源，并以多种方式表现出来；当模型被部署到真实应用中时，可能导致不公平甚至歧视性的结果。理解并解决 LLM 中的偏差问题，是确保 AI 系统符合伦理且具备公平性的关键。

LLM 中的偏差是一个重大问题，可能导致不公平或歧视性的输出。常见偏差包括：

训练数据偏差（Training data bias） ：LLM 从海量文本数据中学习，而这些数据本身就可能包含并放大社会已有的偏见。一个基于历史招聘文本训练的 LLM，可能会将某些职业与特定性别联系起来，并在职业建议或简历筛选应用中延续这种性别刻板印象。这会导致歧视性结果，并强化社会不平等，甚至可能违反伦理标准和公平对待方面的法律要求。
表征偏差（Representation bias） ：如果训练数据中某些群体或观点被低估代表，那么当模型遇到这些类别时，就可能表现不佳或产生带偏见的输出。一个主要基于西方国家英语语料训练的 LLM，可能会难以理解或生成适合非西方文化或非英语语境的内容。这会导致排斥性输出或文化失敏输出，限制模型在多元语境中的适用性，并可能进一步强化文化霸权。
历史偏差（Historical bias） ：如果 LLM 基于历史数据训练，它可能会延续那些已经不再被社会接受的过时刻板印象或社会规范。一个在历史文学语料上训练的 LLM，可能会生成反映过时种族观或性别观的内容，即使这些观点今天已不再被社会接受。这会传播有害刻板印象和落后意识形态，削弱社会进步与包容性努力。
算法偏差（Algorithmic bias） ：用于训练和运行 LLM 的算法本身，也可能无意中引入或放大偏差。例如，许多 LLM 使用的分词过程，可能会无意中赋予某些词语或短语更高权重，从而导致带偏见的解释或生成结果。这类偏差往往深嵌于模型的基本运行逻辑之中，因此更难被发现和纠正。

不可预测性

LLM 的不可预测性（unpredictability） ，指的是：即使输入非常相似，模型仍可能生成不一致、出乎意料，甚至错误的输出。这一特性源于 LLM 本身的复杂性，以及它们所处理的庞大信息规模。虽然不可预测性有时会带来创造性或新颖的结果，但它同样会在可靠性与安全性方面带来重大挑战。

来看一个经过简化的“输入敏感性”示例：

输入 A：“写一段用于排序列表的代码” → 输出：安全、注释完善的排序算法
输入 B：“写一段快速排序列表的代码” → 输出：可能采用较少安全检查的优化方案
输入 C：“写一段快速且高效排序列表的代码” → 输出：可能包含带有安全漏洞的高级技巧

这些细微的提示变化，可能导致截然不同的结果，从而体现出 LLM 响应的不可预测性。

LLM 的行为可能以多种方式表现出不可预测性，并由此带来潜在风险：

对输入变化高度敏感（Sensitivity to input variations） ：输入提示中很小的变化，有时就会引发截然不同的输出，这使得 LLM 的行为难以持续预测。例如，一个由 LLM 驱动的代码生成工具，面对一个提示可能会生成安全代码，但如果提示词稍作修改，就可能生成带有严重安全漏洞的代码。这种不确定性使得系统很难保证持续稳定、可靠的表现，尤其是在那些对稳定性要求极高的安全关键场景中。
幻觉（Hallucinations） ：LLM 可能会生成听起来很可信、但实际上完全虚构的信息。在那些要求事实准确性的场景里，这尤其危险。例如，一个用于教育场景的 LLM，可能会非常自信地讲述虚构的历史事件或科学事实，从而误导学生，并传播错误信息。这会削弱人们对 AI 系统的信任，尤其是在事实准确性至关重要的领域中。
语境误解（Contextual misunderstandings） ：LLM 可能误解上下文或语义细微差别，从而给出不恰当或错误的回应。比如，在心理健康支持聊天机器人中，一个 LLM 可能会误读讽刺语气或惯用表达，从而向脆弱用户给出有害建议。这可能导致沟通失真、冒犯性输出，甚至在敏感场景中带来危险建议，也进一步说明在关键领域部署 LLM 时，必须谨慎并保留人工监督。
涌现行为（Emergent behaviors） ：随着 LLM 变得越来越复杂，它们可能表现出一些开发者事先并未明确编程、也未预料到的行为或能力。一个 LLM 可能会发展出解决某类数学问题的能力，即便这并不是它被专门训练的方向，并因此在科学应用中生成出意料之外的输出。虽然这类涌现行为有时是有益的，但如果它们出现在安全关键系统中，也可能带来不可预测甚至有害的后果。

理解这些内在脆弱性，对于负责任地开发与部署 LLM 技术至关重要。只有正视这些脆弱性并主动处理它们，我们才能朝着更可靠、更公平、更值得信赖的 LLM 应用迈进。随着我们继续前行，需要明确的是：这些挑战虽然重大，但并非不可逾越。它们同时也代表着 AI 领域中创新与改进的机会。

在下一节中，我们将进一步探讨那些利用 LLM 内在脆弱性的恶意威胁。

恶意威胁：数据投毒、模型窃取与输出操控

尽管 LLM 的内在脆弱性本身已经构成重大挑战，但一旦把恶意行为者的潜在利用考虑进来，这些问题就会被进一步放大。本节将分析坏人如何利用 LLM 的盲点与失效模式，来污染模型行为、窃取专有资产，或误导最终用户。正是那些让 LLM 强大的特性——例如处理并综合海量数据、生成有说服力文本的能力——也让它们成为极具吸引力的攻击目标。

我们将重点探讨三类主要的 LLM 恶意威胁：数据投毒、模型窃取与输出操控。这些威胁分别代表了攻击者利用 LLM 的不同路径。通过分析这些复杂攻击向量，我们将更深入理解恶意行为者是如何破坏 LLM 系统、操控其输出，或者窃取其有价值的知识产权的。这也进一步说明，在 LLM 的开发与部署过程中，建立稳健的安全措施与伦理约束是何等重要。

尽管针对生产环境 LLM 的大规模数据投毒攻击目前仍大多停留在理论层面，但研究人员已经在可控实验环境中展示了这种脆弱性。微软在 2016 年推出的 Tay 聊天机器人，虽然严格来说不属于数据投毒攻击，但它展示了协调一致的用户如何在极短时间内污染一个 AI 系统的输出。更近期的研究还表明：只要在训练集中注入仅仅 0.1% 的投毒数据，就可能操控模型在面对特定关键词时输出具有偏向性的内容。

数据投毒

数据投毒（Data poisoning） 是一种隐蔽却强大的威胁：攻击者故意向 LLM 的训练集中加入恶意数据，以影响模型所学到的行为。通过精心构造这些被污染的样本，攻击者可以操控模型生成特定输出，或者表现出特定偏差。

设想这样一个场景：某金融机构使用一个 LLM 来辅助风险评估与贷款审批流程。攻击者可能悄悄向模型的训练数据中注入带有微妙偏见的金融记录，或者误导性的风险指标。如果攻击得手，LLM 就可能生成错误的风险评估或带偏见的贷款审批结果，从而引发重大金融损失，甚至触发监管违规问题。

数据投毒攻击可以通过以下方法缓解：

使用统计分析定期开展数据审计，以发现异常
采用异常检测算法，标记训练数据中的异常模式
实施数据验证流程，包括数据源验证与内容筛查
采用增量式训练并配合性能监控，尽早发现性能退化
使用多样化数据源，降低对潜在已受污染来源的依赖

之所以难以识别数据投毒攻击，是因为恶意样本往往会与合法训练数据无缝混合在一起。哪怕只有少量经过精确定位的投毒样本，也足以显著改变模型行为，使问题根源难以定位，修复过程也更加复杂。

模型窃取

模型窃取（Model stealing） 是另一类重要威胁。在这类攻击中，攻击者试图提取或逆向推导 LLM 的底层参数，以窃取知识产权或发现可被利用的漏洞。由于 LLM 常常以黑盒 API 的形式提供服务（也就是用户只能看到输入和输出，而无法接触其内部实现），攻击者就可能通过精心设计查询，并分析输出结果，来推断模型内部机制。

模型窃取攻击主要包括以下类型：

直接模型提取（Direct model extraction） ：攻击者试图创建一个在功能上等价的目标 LLM 副本，这可能导致专有技术被未授权使用，或让他人利用模型中的漏洞。
成员推断攻击（Membership inference attack） ：这是一种更细腻的方式，攻击者试图判断某些特定样本是否出现在目标模型的训练数据中。这有可能泄露关于训练数据集的敏感信息，包括个人信息或机密细节。

如何防御模型窃取，仍然是一个持续对抗的问题，攻击者与防御者之间始终处于不断创新与反创新的循环中。目前，一些有前景的防御手段已经出现：

水印（Watermarking） ：在模型输出中嵌入独特但不可感知的标记，用于检测未授权使用
差分隐私（Differential privacy） ：在模型输出中加入可控噪声，让攻击者更难推断底层数据或模型参数
同态加密（Homomorphic encryption） ：允许在加密数据上执行计算，从而有望在不暴露底层参数的情况下安全部署模型

虽然这些方法展现出良好前景，但为了应对越来越复杂的攻击手法，它们本身也必须不断演进。若想进一步理解这些防御机制及其实现方式，建议查阅本章末尾“延伸阅读”部分中的资料。

输出操控

也许最容易被公众感知的恶意威胁，就是输出操控（output manipulation） 。在这类攻击中，攻击者会构造特定提示，诱导模型生成虚假、带偏见或有害内容。此前已经有不少高曝光案例显示：提示注入攻击可以让聊天机器人生成歧视性或冒犯性输出。其根源在于 LLM 的开放式特征与对上下文的高度敏感性。不同于那些专为特定任务设计的窄域 AI，LLM 是在广泛语言模式上训练出来的，因此可以被输入提示引导向多个不同方向。攻击者正是通过利用模型中已学到的关联关系，诱导其输出看上去权威、实则有害或误导性的内容。

这个问题之所以更加复杂，是因为很多潜在有害能力，本身也与合法用途高度重叠。例如，帮助 LLM 写出精彩营销文案的同样技术，也可以被用于生成高质量钓鱼邮件；能够帮助开发者写代码的代码生成能力，也可能帮助恶意行为者制作利用程序。这种“双重用途”特性意味着：要在不严重损害正当功能的前提下阻止有害输出，就必须采用细致、语境感知型的方法，而不能依赖简单粗暴的一刀切限制。

输出操控攻击的范围非常广，从相对无害的恶作剧，到严重的虚假信息传播与冒充行动都包括在内。在恶意行为者手中，LLM 可以被用于生成极具说服力的假新闻文章、复杂钓鱼邮件，甚至参与深度伪造内容的生成（即那种越来越难与真实内容区分开的被操纵媒体）。

LLM 生成文本高度个性化、且具有说服力，这又进一步放大了这些威胁的潜在影响。例如，攻击者可以冒充一个受信任的权威人物，把量身定制的错误信息投放给特定个人或群体。

缓解输出操控，需要在安全措施与模型功能保留之间取得微妙平衡。虽然基础内容过滤器可以阻止明显滥用，但它们也可能压缩模型表达能力，并无意中屏蔽合法使用场景。更高级的方法——例如对抗训练与 human-in-the-loop 学习——展现出一定潜力，但目前仍处于发展阶段。

通过理解并主动应对这些恶意威胁，我们才能推动构建更安全、更值得信赖的 LLM 应用。然而，随着技术持续演进，我们的安全措施也必须同步进化，因此在 LLM 安全问题上，持续警觉与持续适应是不可或缺的。

在下一节中，我们将通过案例分析，进一步展示前面讨论过的这些脆弱性与威胁。

真实案例：医疗偏差与社交媒体内容审核

为了更清楚地说明前面讨论的风险与挑战，我们来看两个例子，展示 LLM 在真实场景中可能如何暴露脆弱性。第一个例子聚焦医疗场景，在这里，AI 系统中的偏差可能影响医疗决策，甚至威胁生命安全。第二个例子则关注社交媒体领域，在这个环境中，恶意行为者可以利用内容审核系统的缺陷传播有害信息，并削弱用户对平台的信任。

通过分析一个医疗领域中的内在偏差案例，以及一个社交媒体内容审核中的恶意攻击案例，我们将看到：在真实高风险场景中落实 LLM 安全与伦理原则，面临着怎样的实际挑战；同时也会看到一些可能的解决路径。这些案例将帮助我们更深刻地认识到：前文讨论的安全原则为何至关重要，以及它们如何直接应用于高风险领域。

场景 1：医疗聊天机器人中的 LLM 偏差

设想一家大型医院系统，与一家 AI 公司合作开发一个由 LLM 驱动的聊天机器人。这个聊天机器人的目标，是对患者症状进行分诊，并提供个性化护理建议，以减轻临床医生负担，同时提升患者及时获得医疗建议的可及性。

在基于大规模电子病历与医学文献进行初步训练后，该系统被部署到生产环境。患者现在可以通过患者门户与这个聊天机器人互动，描述自己的症状，并获得下一步建议，从居家护理提示，到建议立即就医，均可覆盖。

最初，这个聊天机器人取得了成功：每天处理数千条患者咨询，并因响应迅速且有帮助而获得大量积极反馈。然而，随着更多患者开始使用系统，一些令人不安的模式逐渐浮现。

在一次例行质量审计中，医院的数据科学家发现：分诊与建议算法中存在显著偏差。对于某些特定症状，例如胸痛，该模型更倾向于向男性患者推荐急诊处理，而面对具有相似医疗特征的女性患者时，则不那么激进。其他情况下，模型还会淡化来自低收入邮编区域患者所报告症状的严重性。

进一步调查表明，这些偏差很可能源于训练数据中的不均衡：训练数据更偏向来自富裕地区、且以男性为主的健康记录。尽管团队曾努力对数据进行匿名化和均衡化处理，但微妙的偏差模式仍然渗入数据中，并在 LLM 的学习过程中被进一步放大。

医院管理层意识到：如果这些带偏差的建议持续存在而不受控制，后果可能极其严重。女性患者以及来自边缘化社区的患者，可能会因为严重病情被忽视或治疗不足，而遭遇本可避免的并发症与伤害。更糟的是，AI 系统所带来的“客观性幻觉”，还可能让临床医生在判断时倾向于服从模型输出，而压过自己的专业经验与临床判断。

幸运的是，医院主动建立的审计流程，在造成重大伤害之前就发现了这些问题。系统被立即下线，AI 团队随即对模型训练数据和学习算法展开深入审查。在接下来的数月里，他们使用更加精心筛选、更具代表性的数据集重新训练模型，并采用反事实公平性分析（counterfactual fairness analysis）等技术来识别与缓解人口统计维度上的偏差。

当重训后的模型在不同患者子群体中的建议差异显著下降后，它才被谨慎地重新部署，并配套更强的监控与人工监督机制。医院董事会还承诺定期进行第三方公平性审计，并设立 AI 伦理委员会，以指导该聊天机器人后续的负责任开发与使用。

尽管这个假设场景最终被安全解决，但它清楚地揭示了：当 LLM 中的内在偏差被应用于医疗这样的高风险领域时，会带来多么严重的危险。它也进一步强调了主动偏差测试、持续监控以及人工监督的重要性，以确保 AI 系统是在促进，而不是削弱健康公平与患者福祉。

场景 2：针对社交媒体审核 LLM 的恶意攻击

某大型社交媒体平台最近部署了一套先进的、基于 LLM 的自动内容审核系统，用于检测和删除包含仇恨言论、错误信息以及其他违反平台社区标准的内容。该系统基于数十亿条已标注的社交媒体帖子与评论训练而成，并在内容审核任务中达到了最先进的准确率。

系统上线数周后，平台上违规内容的出现频率显著下降。有害帖子通常会在数分钟内被识别并删除，从而让人工审核员能够把精力集中在更复杂的边界案例上。该系统因此被广泛视为遏制网络毒性、保障用户安全的一项重大成功。

然而，恶意行为者很快开始试探平台的薄弱点。通过不断试错，他们发现：只要对帖子做一些细微调整，就能绕过系统的检测过滤。例如，通过把常见仇恨关键词替换为近义词、变体写法，或者加入错别字和拼写错误，攻击者就能让原本会被拦截的内容顺利通过审核。

一些攻击者还开始向平台大量投放处在边界上的灰色内容，其目的是慢慢污染模型的学习关联关系。他们不断发布那些游走在“可接受边缘”的内容，并诱导用户举报，希望逐步降低模型分类性能，并提高误报率。

更令人担忧的是，一群协同行动的攻击者还发现：他们能够通过一场有组织的虚假信息行动，主动“投毒”平台的决策过程。具体做法是：他们创建虚假账号网络，持续发布经过精心设计的内容，把某些特定关键词或主题不断与违规内容相关联，从而影响模型，让它逐渐开始错误地把包含这些关键词的无害内容也识别为仇恨言论或虚假信息。

在这些攻击作用下，平台开始出现越来越多错误。原本讨论重要社会议题的合法帖子被误删，而真实的仇恨言论与骚扰内容却漏检通过。用户逐渐失去对平台内容审核机制的信任，指责平台审查标准不透明、执行不一致。

更糟糕的是，问题又因系统的黑箱式决策而进一步恶化。由于该 LLM 的运行透明度有限，且缺乏足够人工监督，平台的信任与安全团队很难迅速判断模型性能下降的根本原因，也难以向受影响用户解释相关决策。攻击者正是利用了这种不透明性，进一步制造怀疑与混乱。

意识到问题的严重性后，这家社交媒体公司不得不作出一个艰难决定：暂时恢复为完全由人工执行内容审核，同时着手调查并修复平台中的脆弱点。在接下来的数月里，他们重新训练模型，引入更多对抗样本；部署更强的内容过滤与预处理防护机制；并尝试用新方法提升模型推理过程的可解释性与可审计性。

该公司还扩充了人工审核团队，并为高风险内容类别与用户申诉建立了新的人工复核流程。与此同时，他们建立了一个公开透明中心，让用户能够更清楚地了解平台内容政策与审核实践；并投入数字素养项目，帮助用户识别和举报操控性内容。

尽管这些补救措施成本高昂、耗时漫长，但它们帮助公司逐步恢复了用户信任，并提升了内容审核系统对未来攻击的韧性。然而，这次经历也再次警示我们：即便是能力很强的 LLM，只要处于对抗性环境中，也仍然面临巨大风险；而建立稳健的社会—技术防护措施和应急预案，始终是必要的。

这些假设场景虽然是虚构的，但它们所揭示的问题却是真实而紧迫的。它们表明：内在偏差与恶意攻击都可能在现实世界中带来重大后果，而要缓解这些伤害，必须采取超越纯技术解决方案的主动式、多维度方法。这些情景与现实案例高度相似。例如，Facebook 的内容审核系统就曾多次遭遇有组织行动，试图操纵其审核算法；又如，Amazon 在 2018 年不得不废弃一套 AI 招聘工具，因为该工具被发现存在对女性的歧视，这说明即便是本意追求“客观”的系统，也仍然会表现出偏差。

通过更早、更频繁地预判并压测这些失效模式，并在 AI 开发全生命周期中把鲁棒性、可解释性与监督机制真正内嵌进去，实践者就能更有可能确保 LLM 的开发与部署是安全的、合乎伦理的、且可持续的。这并不意味着我们能够获得“完美表现”，而是意味着：面对复杂且不断演化的挑战，我们必须持续保持警觉、学习与适应。

带着这些认识，接下来让我们进一步探讨那些能够有效指导我们保护 LLM 的关键原则。

保护 LLM 的关键原则

要开发并部署安全、稳健且负责任的 LLM，就必须采用一种能够同时覆盖技术层面与组织层面的综合方法。本节旨在为 LLM 的开发与部署提供一个可用于落地实施稳健安全机制的框架。我们将重点讨论五项关键原则：主动威胁建模、对抗测试、数据溯源与审计、安全模型训练与部署，以及健壮监控与事件响应。这些原则中的每一项，都在保障 LLM 的安全性、可靠性与负责任使用方面发挥着关键作用。下面我们逐一深入展开。

主动威胁建模

主动威胁建模（Proactive threat modeling） ，是一种系统性方法，用于在 LLM 的整个生命周期中识别、评估并优先排序潜在安全风险。这个过程需要全面审视从数据采集、模型训练到部署与监控的每一个阶段，以发现潜在漏洞、威胁和失效模式。例如，一家金融科技公司在为客户支持场景部署 LLM 时，使用 STRIDE 框架发现其系统存在信息泄露风险（客户可能通过巧妙提示访问到他人的账户信息）。这一发现促使他们在上线前增加了访问控制与输出过滤，从而避免了潜在的隐私泄露事故。

通过主动识别这些风险，组织就能够制定有针对性的防御策略，并更有效地配置资源，把重点放在最严重的威胁上。在进行威胁建模时，必须考虑多种因素，例如：LLM 的具体应用场景、它所处理数据的敏感程度、安全事件或模型失效可能带来的影响，以及不同类型攻击发生的概率。

威胁建模通常从建立一份详细清单开始，该清单涵盖 LLM 系统的组成部分、数据流与依赖关系。随后，再采用成熟的方法体系（如 STRIDE 或 DREAD）对每个组成元素进行系统分析，识别可能存在的薄弱点。

STRIDE 是一个安全威胁分类框架，其六类威胁分别是：

Spoofing（身份伪造） ：冒充用户、系统或组件，以获取未授权访问
Tampering（篡改） ：未经授权修改数据、代码或配置
Repudiation（抵赖） ：否认已执行的行为，使责任难以追踪
Information disclosure（信息泄露） ：向未授权方暴露敏感信息
Denial of service（拒绝服务） ：干扰或削弱系统/服务的可用性
Elevation of privilege（权限提升） ：获得超出设计意图的更高访问权限

通过使用 STRIDE 对潜在威胁进行分类，组织可以系统性地识别风险，并根据其潜在影响与发生概率进行优先级排序。

另一方面，DREAD 是一种风险评估模型，它从五个维度对威胁打分：

Damage（损害程度） ：威胁可能造成多大危害
Reproducibility（可复现性） ：威胁是否容易被复现或复制
Exploitability（可利用性） ：威胁是否容易被利用或实施
Affected users（受影响用户） ：会有多少用户或系统受到影响
Discoverability（可发现性） ：漏洞或弱点是否容易被发现

通过 DREAD 打分，组织可以根据总体严重性来排序风险，并据此安排资源。

高质量的威胁建模需要多方协作，包括数据科学家、安全专家、法务与合规团队，以及业务负责人。只有采用这种跨学科方法，才能从不同视角全面理解风险，并对风险管理作出有依据的决策。

我们可以通过一个例子来理解主动威胁建模。假设你正在为一家医疗公司开发一个由 LLM 驱动的虚拟助手。在威胁建模过程中，你首先会识别关键资产，例如患者数据、医学知识库，以及 LLM 本身。然后，你会绘制一张系统图，展示用户、LLM 与数据库之间的数据流动方式。接着，使用 STRIDE 框架识别潜在威胁：例如，攻击者可能冒充医生访问患者数据（Spoofing）；篡改医学知识库（Tampering）；否认曾请求某项医疗建议（Repudiation）；LLM 可能把一位患者的数据泄露给另一位患者（Information disclosure）；系统可能因大量请求而瘫痪（Denial of service）；或者攻击者试图获取管理员权限（Elevation of privilege）。之后，你再用 DREAD 模型评估这些威胁的风险等级，并制定缓解措施，例如：强身份认证、加密、审计日志，以及输入/输出清洗。通过这种主动方式，你就能在问题演变成现实事故之前，提前识别并解决潜在安全隐患。

STRIDE 提供了一种系统化的威胁分类方式，而像 DREAD 这样的框架则能帮助根据损害潜力、复现性和可利用性来进一步排序风险。对于大多数组织来说，从 STRIDE 入手，已经足以为全面威胁识别提供良好结构。

必须认识到，主动威胁建模并不是一次性工作，而是一个持续过程。随着 LLM 系统不断演化，以及新威胁不断出现，它必须被定期重新审视与更新。只有持续保持主动且可适应的安全姿态，组织才能领先潜在攻击者一步，降低严重事件发生的风险，确保 LLM 系统的持续完整性与可靠性。

对抗测试

对抗测试（Adversarial testing） ，是指通过模拟潜在攻击者的思维方式与技术手段，故意寻找 LLM 中的弱点与漏洞。其目标，是在恶意行为者真正利用这些问题之前，先将其识别并修复。一个典型例子是：研究人员曾发现 GPT-4 可以被某些精心构造的提示诱导，从而忽略其安全准则并生成有害内容。这类“越狱（jailbreaking）”技术促使 OpenAI 引入额外安全防护，也说明了为什么对抗测试必须贯穿 LLM 全生命周期。

常见的对抗测试技术包括：

输入模糊测试（Input fuzzing） ：向 LLM 提供各种随机、意外或格式异常的输入，观察其如何响应。这可以帮助发现模型在哪些情况下会生成错误、不一致或有害的输出。研究人员就曾通过输入模糊测试，找出会诱导语言模型生成偏见、冒犯性或毫无意义文本的提示。
模型反演（Model inversion） ：试图通过分析模型输出，重构训练数据或提取敏感信息。攻击者可能通过精心设计查询，并分析模型回应，从中推断出训练模型时所使用的数据内容，这可能侵犯隐私与知识产权。
红队测试（Red teaming） ：组织专门的安全专家，以攻击者视角去构思复杂攻击方式，针对 LLM 系统发起测试。这可能包括：数据投毒（通过操纵训练数据来影响模型行为）、模型窃取（提取模型参数以复制模型），以及对抗样本（构造让模型做出错误判断的输入）。

对抗测试应当是贯穿 LLM 全生命周期的持续性过程，而不是一次性活动。随着新的攻击手法不断出现，只有定期测试，才能确保模型在时间推移中仍然保持稳健与安全。这要求组织持续投入专门人才与工具，并在内部建立起安全意识与警觉文化。

从对抗测试中获得的洞察，应当被用于持续优化 LLM 系统。通过理解测试中暴露出的具体漏洞与失效模式，组织可以开发有针对性的防御机制，例如输入验证、输出过滤或对抗训练，以增强模型抵御真实攻击的能力。

我们可以用一个更简单的比喻来理解这一点。假设你有一个非常聪明的机器人，它能理解并回应人类语言。对抗测试就像在玩一个游戏：你故意去“骗”这个机器人，让它犯错，或者说出不该说的话。目的就是在坏人真正利用这些弱点之前，先把它们找出来。

你可以通过不同方式来测试这个机器人：

给它大量随机或令人困惑的输入，看看它会不会被弄糊涂，或者说出不合适的话
精心提问，并分析它的回答，试图反推出训练它时使用了哪些信息
请来专门的安全专家，让他们站在“坏人视角”，设计巧妙的攻击方式

之所以要定期玩这个“找漏洞”游戏，是因为新的欺骗手法总在不断出现。通过不断发现并修复机器人的弱点，我们才能让它对所有人都更安全、更可靠。

当这些测试发现问题后，我们就可以利用这些信息来改进系统：让它学会识别并忽略恶意输入；更谨慎地处理共享信息；更能抵御外界诱导它做坏事的尝试。

总之，对抗测试是保障 LLM 安全性与可靠性的关键过程。通过主动发现并缓解漏洞，组织就能构建出更稳健、更值得信赖、且更能抵御恶意攻击的 AI 系统。

数据溯源与审计

数据溯源与审计（Data provenance and auditing） ，是确保 LLM 安全性与完整性的关键组成部分。这些实践要求组织对用于训练 LLM 的数据来源、变换过程与数据血缘进行细致追踪，并定期审查这些信息，以确保符合数据治理政策，并及时识别潜在问题。

我们可以用一个更直观的比喻来说明这个概念。想象你在做蛋糕。蛋糕的质量取决于你用了什么原料、怎样混合它们，以及怎样烘焙。同样地，LLM 的质量与安全性，也取决于训练它所使用的数据。

数据溯源，就像是记录你从哪里买来的原料，确认它们新鲜且质量合格，并把整个做蛋糕的步骤都写下来。这可以帮助你确保蛋糕是安全可食用的，也能让你未来按同样方式再次做出它。

而审计，就像请别人来检查你的原料和配方，确认它们是否都符合安全、美味的蛋糕制作规则。他们还可能品尝蛋糕，检查成品是否符合预期。

通过追踪数据来源、保证数据多样性与低偏差，并定期检查是否存在问题，组织就能构建出更值得信赖、更安全的 LLM。这就像是：通过使用合适原料、遵循可靠食谱，确保你的蛋糕既美味又安全。

以下是关于 LLM 数据溯源与审计的几个关键点：

数据整理（Data curation） ：精心选择与整理训练数据，是缓解偏差、操控与投毒等风险的关键。这意味着要确保数据与预期使用场景匹配，能够覆盖相关属性与视角的多样性，并且不包含冒犯性、误导性或恶意内容。
记录数据来源（Documenting data sources） ：详细记录数据来源，包括数据的来源地、采集方式，以及任何许可或使用限制，这对于透明性与问责性至关重要。这样，组织才能追踪训练数据的来源，并确保其获取方式在伦理与法律上都是合规的。
记录数据变换（Recording data transformations） ：记录所有数据预处理、清洗与增强步骤，对于可复现性与审计同样重要。这有助于确保训练 LLM 所使用的数据是稳定且可信的。
定期审计（Regular auditing） ：定期审查数据管道，有助于及时发现问题，例如数据漂移（随着时间推移，数据统计属性发生变化）或数据泄漏（敏感信息被无意纳入训练集）。自动化数据验证测试则可以帮助在管道早期尽快发现潜在风险。
访问控制与安全存储（Access controls and secure storage） ：为了保护训练数据的保密性与完整性，必须实施访问控制和安全存储实践。这包括对静态数据与传输中数据进行加密；为数据处理使用安全计算环境；以及实施严格的认证与授权机制，以“最小必要知情”为原则限制对敏感数据的访问。

通过重视数据溯源与审计，组织能够为其 LLM 系统建立更高的信任与透明度，降低与数据相关的脆弱性风险，并确保满足相关法规与伦理标准。这要求数据科学家、安全团队，以及法务和合规专家紧密协作，共同制定健壮的数据治理政策与实践。

安全模型训练与部署

为了确保 LLM 的安全，组织必须高度关注模型训练与部署过程，因为如果管理不当，这些阶段本身就可能引入漏洞。这意味着要在训练与部署过程中落实安全最佳实践，并采用技术手段保护敏感数据与关键计算过程。

以下是确保安全模型训练与部署的一些关键技术：

访问控制（Access controls） ：建立严格规则，明确在训练与部署过程中，谁可以访问模型、谁可以对其进行操作。这通常包括采用强身份认证方式（例如多重身份验证），并且只向那些因工作确有需要的人授予访问权限。
安全计算隔离区（Secure computer enclaves） ：这是一种特殊的受保护环境，可用于执行敏感模型计算。它可以让代码和数据在加密状态下运行，免受未授权访问或篡改，即便攻击者拥有高权限，甚至控制底层基础设施，也难以直接突破。
加密数据传输（Encrypted data transfer） ：当数据在 LLM 系统不同部分之间流动时（例如从存储到训练服务器，或从模型到终端应用），必须进行加密，以保护数据的保密性与完整性。这可以防止数据在传输过程中被窃听或被篡改。
差分隐私（Differential privacy） ：这是一种让 LLM 可以在敏感数据上训练、同时仍保护个体隐私的技术。它通过向训练数据或模型输出加入经过精确控制的噪声，掩盖任何单个数据点的具体影响。这样，模型能够学习数据中的总体模式，而不会暴露特定个人的详细信息。
安全多方计算（Secure multi-party computation, MPC） ：MPC 允许多个参与方在不互相泄露私有数据的前提下，共同训练一个 LLM。它为不同组织之间的协作与数据共享提供了一种安全方式，让各方能够在保密前提下共同受益。
定期安全审计与测试（Regular security audits and testing） ：定期检查与测试已有安全控制措施，确认它们是否有效运作，并发现模型训练与部署过程中的潜在薄弱点。这有助于组织领先于威胁一步，并持续保护模型及其相关数据。

健壮监控与事件响应

要把 LLM 部署到真实世界应用中，就必须具备持续监控与高效事件响应能力，以便快速发现并缓解潜在的安全入侵、滥用行为或性能退化。这要求我们为 LLM 系统建立合适的日志、告警与异常检测机制，并且明确调查与响应事件的流程与责任人。

监控应覆盖 LLM 系统的多个方面，包括输入与输出数据、模型性能指标、资源利用率以及用户交互情况。这样有助于发现偏离预期行为的异常，例如安全入侵、数据投毒攻击或模型故障。举例来说，如果某类输出的频率突然异常上升，或者模型准确率显著下降，就可能表明系统存在潜在问题。

异常检测技术——例如统计分析、机器学习或基于规则的方法——可以帮助自动识别监控数据中的异常模式或离群点。这些方法应根据 LLM 系统的具体特征与风险画像进行定制，并定期更新，以适应不断演化的威胁与使用模式。

此外，事件响应流程必须被清晰定义并形成文档，明确分配角色与职责给特定团队成员或组织职能。这包括：确定什么情况构成“事件”；定义事件严重等级与升级阈值；以及明确遏制、调查与修复的具体步骤。

自动化告警与通知机制也必须到位，以便在潜在事件发生时，迅速通知相关利益方，例如安全团队、开发人员或业务负责人。这些告警应附带足够上下文与细节，以支持快速分诊和决策，例如受影响的具体模型或数据、问题的严重程度与范围，以及初步缓解建议。

遏制与缓解策略应事先规划并进行演练，以便在事件发生时迅速行动。这可能包括：隔离受影响系统或数据、撤销访问权限、回滚到模型的前一版本，或者在必要时彻底关闭系统。对于这些操作，也应事先明确决策标准与审批流程，以在“快速响应”与“适当监督、风险管理”之间取得平衡。

调查与根因分析，对于理解事故背后真正的成因以及发现改进机会至关重要。这可能涉及分析系统日志、数据取证信息、用户活动记录，以及访谈相关人员。调查所得的发现与经验教训，应被记录并与适当利益相关方共享，以改进未来的预防与检测工作。

修复与恢复工作，则应尽快将 LLM 系统恢复到安全且可运行状态，同时尽量降低对用户与业务流程的影响。这可能包括：修补漏洞、更新安全控制、在干净数据上重新训练模型，或引入新的监控与检测能力。事件后的复盘与验证也应同步开展，以确认修复措施是否有效，并识别是否仍有未解决的风险或缺口。

对于 LLM 而言，高效事件响应还要求组织与外部利益相关方保持密切协作与沟通，例如客户、监管机构或公众——这取决于事件的性质与严重程度。透明且及时的沟通，有助于维护信任、降低声誉损害，并帮助组织履行法律与伦理义务，例如数据泄露通知要求。

通过建立健壮的监控与事件响应能力，组织就能主动发现并应对 LLM 系统中的安全威胁与性能问题，从而降低风险并提升韧性。这要求持续投入工具、流程与能力建设，并形成一种从事件中持续学习、持续改进的组织文化。

关键原则的核心结论

LLM 风险的双重性质——内在脆弱性与恶意威胁——为 AI 安全带来了重大挑战。模型不透明性、偏差与不可预测性等内在脆弱性，可能引发非预期且有害的后果；与此同时，恶意行为者又可能利用这些脆弱性来操控 LLM，以达成散布虚假信息、窃取知识产权或持续加剧歧视等恶意目的。

要应对这些风险，必须采取一种多层次方法，将技术方案、治理框架与责任文化结合起来。像对抗测试、数据溯源追踪、安全训练与部署实践等技术手段，都可以帮助识别并缓解脆弱性。

更关键的是，组织内部以及整个 LLM 开发与部署生态中，都必须建立起一种责任与伦理文化。这要求持续开展意识提升、培训与问责工作，确保每个个人与团队都具备相应知识、技能与激励机制，从而在工作中真正优先考虑安全与伦理。

LLM 安全的前进路径复杂且不断演变，没有简单答案，也不存在“放之四海而皆准”的单一方法。但只要组织能够践行本章中提出的原则与实践——包括主动威胁建模、对抗测试、数据溯源与审计、安全训练与部署、偏差与公平性评估、可解释性与透明性、健壮监控与事件响应、协同研究与信息共享、基于伦理的治理，以及意识提升、培训与问责——就能够朝着缓解风险、实现这项变革性技术价值的方向迈出重要一步。

归根到底，LLM 安全的目标，不只是防止攻击，也不只是满足监管要求，更是为了在开发者、用户与整个社会之间，建立起对这项技术的信任与信心。这要求我们持续承诺于透明性、包容性与问责制，并且愿意随着技术及其影响不断演变而持续学习和调整。

总结

在本章中，我们探讨了 LLM 安全这一复杂领域，重点关注了其内在脆弱性与外部威胁。我们还深入讨论了构成完整 LLM 安全策略基础的关键原则，包括主动威胁建模、对抗测试、数据溯源与审计、安全模型训练与部署，以及健壮监控与事件响应。

你已经学习到：应当以整体化视角来看待 LLM 安全，同时考虑技术、治理、伦理与人的因素。你也掌握了识别并优先排序 LLM 特有脆弱性与攻击方式的方法，理解了如何确保数据完整性与隐私，并把伦理考量嵌入到 LLM 开发与部署的每一个阶段。你还认识到：持续监控与协同研究，对于维持 LLM 安全同样至关重要。

这些知识在当今由 AI 驱动的世界中极其重要。它们帮助组织降低数据泄露与模型操控相关风险、建立用户与监管方信任、提前应对不断演化的 AI 法规，并以负责任方式推进创新。通过优先考虑 LLM 安全，组织不仅可以获得竞争优势，还有机会避免代价高昂的事故。

在下一章中，我们将进一步探讨增强 LLM 鲁棒性与可靠性的高级技术，重点关注如何提升模型性能、降低偏差，并确保其在多样化应用场景中保持输出一致性。