AI-Native 大语言模型安全——LLM 安全的未来：新兴威胁、有前景的防御，以及前进方向本书已经讨论了 LLM 安

本书已经讨论了 LLM 安全的多个方面。在本书最后一章中，我们将把视角投向 LLM 安全的未来，探讨正在出现的新型威胁，以及那些具有前景的防御创新。本章将涵盖 AI 能力持续进步所可能带来的影响、监管环境的演化，以及持续研究与协作的重要性。你将获得关于如何在快速变化的 LLM 安全格局中前行的洞察，并为你的组织规划一条主动出击的未来路径。

本章将涵盖以下主题：

新兴威胁：下一代 LLM 安全挑战
有前景的防御创新：研究前沿与尖端技术
演化中的监管环境：如何应对不断变化的合规要求
协作的重要性：积极参与 LLM 安全社区

新兴威胁：下一代 LLM 安全挑战

随着 LLM 不断进步，并日益深入地融入技术与社会的各个层面，它们一方面打开了新的创新空间，另一方面也开辟了新的利用路径。下一代 LLM 安全挑战正在逐步浮现，而推动这些挑战的，既有技术进步本身，也有恶意行为者不断增长的创造力。理解这些不断演化的威胁，对于构建稳健防御、并确保未来 LLM 能够安全部署至关重要。

我想以我在 Cloud Security Alliance 发布的一篇博客文章作为本章开篇（cloudsecurityalliance.org/blog/2023/1…）。在那篇文章中，我列举了生成式 AI（Generative AI，或简称 GenAI）的一些主要安全趋势，而我认为，下列趋势与本章内容高度相关：

AI 云基础设施与安全优先级提升：GenAI 对计算资源的高强度需求，正推动组织越来越依赖具备可扩展性且拥有强安全能力的云基础设施。云平台提供 GPU 等关键资源，但与此同时，也必须部署更先进的安全协议，才能真正有效保护数据与 AI 模型。

业务应用的转型：GenAI 使动态工作流成为可能，降低了对僵化编码方式的依赖。然而，这种灵活性也带来了新的安全挑战，要求组织重新思考网络安全措施，并需要具备相应能力的专业人才来管理这些风险。

由 GenAI 驱动的网络安全工具所带来的风险：GenAI 正在为应用安全、威胁检测和数据隐私等领域创造新工具，从而增强主动式与响应式网络安全能力。但若要真正发挥效用且保持安全，这些工具必须被正确集成到企业既有的安全工具链和流程之中。如果被误用，它们可能弊大于利。例如，这类工具可能通过某个 AI 报告代理，不恰当地把内部应用漏洞泄露到公共空间；或者在没有人工参与（human in the loop）的情况下，擅自修改安全配置。

GenAI 增强型网络攻击：像 WormGPT 这类恶意工具，正在促使钓鱼攻击与恶意软件变得更复杂，从而让网络犯罪分子能够发起大规模攻击。组织必须依赖可自适应、实时性的防御手段来对抗这些 AI 驱动的威胁。WormGPT 是一种专为网络犯罪活动设计的恶意 AI 工具，基于 GPT-J 语言模型构建。由于它不包含伦理防护，因此可以生成有害内容，例如钓鱼邮件、商业邮件欺诈（BEC）攻击内容以及恶意代码。该工具支持无限字符输入，并具备对话记忆能力，使其在构造复杂恶意内容方面非常高效。WormGPT 最初出现在地下论坛中，并迅速受到网络犯罪分子欢迎，直到其作者因媒体关注而停止销售。更多关于 WormGPT 及其影响的信息，可参见：slashnext.com/blog/wormgp…

边缘侧攻击面扩张：随着 AI 模型越来越多地部署到边缘设备上，由于其分散化特征以及更贴近物理与网络脆弱点，攻击面也随之扩张。不同于集中式云系统，边缘设备常运行于不可控环境中，例如偏远工业现场或公共空间，因此更容易遭受物理篡改、盗窃或破坏。此外，这些设备往往会在本地处理敏感数据，例如健康信息或实时位置数据，而这些数据在本地处理或网络传输过程中都可能暴露给攻击者。攻击者可以利用硬件漏洞、植入恶意软件，或截获机器学习模型，从而破坏系统完整性并窃取知识产权。更糟的是，被攻陷的边缘设备还可能被用作更大范围网络攻击的入口。为了缓解这些威胁，必须部署资源高效型安全方案、强加密机制、防篡改机制，以及零信任模型，以保护边缘端点并确保边缘侧数据处理安全。

在接下来的小节中，我还将继续列举更多新兴攻击。

针对 AI Agent 的攻击

AI Agent，尤其是多 Agent 系统中的 AI Agent，带来了独特风险与攻击路径。例如，对抗性机器学习攻击可以通过喂入欺骗性数据来操纵 AI 行为，导致 Agent 发生异常。一个现实世界中的例子是：自动驾驶汽车可能因为被篡改的路标而被误导，从而做出危险驾驶决策。此外，提示攻击还可能影响 AI 输出，使钓鱼邮件看起来更真实可信。多 Agent 系统的复杂性进一步放大了这些风险，因为一旦其中一个 Agent 被攻陷，它就可能向其他 Agent 传播错误信息或恶意动作，形成放大效应。要缓解这些漏洞，必须部署稳健的安全协议，并保持持续警惕的监控。

另一个例子是 Itay Nakash 及其合作者的论文 Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In，其中展示了一种名为“登门槛攻击（foot-in-the-door attack）”的方法。攻击者通过提出看似无害的请求，可以逐步、细微地影响 Agent 的思考过程，使其更容易在后续执行恶意动作。由于 ReAct Agent 倾向于不重新评估已作出的决策，因此它在这类攻击下更加脆弱。作者建议引入一种“反思机制（reflection mechanism）”，促使 Agent 重新审视其行为的安全性，从而降低此类攻击成功率。这一研究强调了：为了防止 AI Agent 被利用，必须对其持续评估，并建立稳健安全措施。更多信息请参阅原始论文：arxiv.org/abs/2410.16…

为了缓解与 AI Agent 行为相关的风险，组织可以采用实时行为跟踪工具，例如 Dynatrace、Datadog、开源的 phoenix.arize.com/，或 OpenAI Agents SDK 的 tracing 能力（platform.openai.com/docs/guides…），对决策模式、API 调用与异常行为进行监控，从而建立 AI 专属可观测性与行为基线，以发现偏离。组织还应集成自定义日志与遥测能力，以结构化方式记录包含输入提示词、模型输出与决策依据等元数据的日志，用于追踪与审计。此外，可以借鉴 ReAct（Reasoning + Acting）框架中的“反思机制”，通过引入自我反思检查点，让 Agent 对既往动作进行安全复核；通过内省式提问识别前后不一致；并在检测到不希望出现的行为时，自动触发回滚机制。由 LLM 驱动的“批判机制（critique）”还能在执行前进一步优化输出。将 Dynatrace 提供的外部实时异常监控，与 ReAct 风格的内部自我评估相结合，构成一种混合型防御方案，可在高风险决策中提供认知层面的保护、自适应学习能力以及 human in the loop 验证。

深度伪造（Deepfake）

在我之前由 Springer 于 2024 年出版的书《Generative AI Security》中，我探讨过深度伪造以及 AI 生成内容操纵所带来的多维威胁。这种操纵，会给生成式 AI 系统中的数据完整性带来重大挑战。例如，美国联邦调查局（FBI）已经发布警告，强调深度伪造攻击相关风险（www.wilmerhale.com/insights/pu…）。这类操纵性实践可被武器化，用于传播错误信息、冒充个人，或制造可被用于勒索与诽谤的内容。这项技术的社会影响极其深远，波及领域从政治到个人关系。正如未来几年我们将看到的那样，如何有效检测并缓解被操纵内容，正在成为一个愈发迫切的问题。应对这些挑战，必须采取多维度方法，把技术创新、稳健法律框架与公众意识提升结合起来。

目前已经出现了一些用于检测深度伪造和其他 AI 生成内容的工具。Deepware Scanner 是一款 AI 驱动的深度伪造检测工具，它提供 Web 平台、API 和 SDK，可用于识别视频中的 AI 生成面部操控（scanner.deepware.ai/）。它支持对最长 10 分钟的视频进行分析，包括来自 YouTube、Facebook 和 Twitter 等平台的视频，重点关注面部伪造而非声音伪造。尽管其准确率并非绝对，但它会给出视频为深度伪造的概率百分比。

Microsoft Video Authenticator 是另一款可用于分析照片与视频中是否存在人为操控迹象的工具。它会生成一个置信分数，用于表示媒体被篡改的概率。对于视频，它还能对每一帧进行实时评估，借助深度学习识别人眼未必能直接察觉的细微不一致之处（blogs.microsoft.com/on-the-issu…）。

Sensity AI 则通过多层方法评估不同类型的数字媒体，包括视频、图像、音频以及身份信息，从而实现深度伪造检测。其平台界面友好，支持通过拖放文件或输入 URL 的方式分析媒体内容。它还支持大规模深度伪造监测，能够围绕特定目标、话题和地理趋势开展分析。Sensity AI 与数字取证、执法机构、KYC 供应商以及社交媒体平台等多个行业合作，以共同应对深度伪造与合成身份欺诈（Sensity.ai）。

这些工具代表了当前在深度伪造检测方面的初步进展；未来若要真正对抗深度伪造，还需要投入更多研究。

自动化社会工程攻击

LLM 的强大能力，使攻击者能够大规模自动化社会工程攻击。钓鱼邮件、欺诈消息以及其他欺骗性通信内容，都可以被高度个性化且极具真实性地自动生成。这显著提高了受害者上当受骗的可能性，并由此引发经济损失、数据泄露以及其他安全事件。

为了缓解由 LLM 驱动的自动化社会工程攻击，组织必须采取分层防御策略。引入基于 AI 异常检测能力的高级邮件与消息过滤器，有助于识别并拦截可疑通信。持续的培训与意识提升项目同样不可或缺，它们可以帮助个人识别钓鱼与其他欺骗战术中的细微信号——即使攻击者正在变得越来越复杂。此外，更严格的身份验证机制（例如多因素认证，MFA）也能降低社会工程攻击一旦成功所造成的影响。组织还应采用实时监控工具，以检测用户行为或数据访问模式中的异常，因为这些异常往往意味着某个账户已经被攻陷。

一套分层防御自动化社会工程攻击的策略，应整合诸如 Darktrace 之类的 AI 驱动异常检测工具，以及诸如 Barracuda Sentinel 之类的高级邮件过滤器，以应对越来越复杂的、由 AI 驱动的钓鱼与冒充攻击。Darktrace 使用自学习 AI 来识别网络流量、邮件行为和端点活动中的细微异常；其 Darktrace DETECT 可识别实时威胁，Darktrace RESPOND 则可在威胁升级前自动中和恶意行为。它会不断优化行为模型，以识别 AI 生成钓鱼、深度伪造攻击和自动化 BEC 等相关偏移。Barracuda Sentinel 则作为补充，利用 AI 驱动的鱼叉式钓鱼检测、账号接管防御和 DMARC 强制执行来阻止自动化邮件伪造与冒充。为了进一步降低风险，组织还应部署如 CrowdStrike 和 Microsoft Defender 之类的 EDR/XDR 方案，对设备与用户活动进行分析，并在邮件、端点和云应用之间关联可疑行为；同时结合用户行为分析（UBA）来检测异常访问模式，例如快速权限提升或 AI 驱动的撞库攻击。引入零信任安全模型，并结合 MFA、自适应访问控制与风险驱动型认证，能够确保即便 AI 自动化攻击突破了第一层防御，也难以轻易获得更高权限或横向移动。此外，还应持续开展 AI 增强型安全意识培训和自动化钓鱼演练，让员工不断接触不断演化的攻击手法，从而学会识别 AI 生成的欺骗信息，进一步提升组织面对自动化社会工程威胁的韧性。

高级供应链攻击与模型投毒

高级供应链攻击与模型投毒，代表了新一代网络威胁，它们直接瞄准现代软件系统和 AI 模型赖以构建的底层依赖。攻击者会利用第三方软件包和开源组件所形成的复杂依赖网络，把恶意代码注入受信任仓库，从源头破坏软件供应链。这样一来，攻击者就能通过看似合法的更新或依赖，把风险同时扩散到成千上万个下游系统。

与此并行的是，随着组织越来越依赖 AI 系统，攻击者也在发展更复杂的技术，用于在训练或部署阶段对机器学习模型实施投毒。通过操纵训练数据，或利用模型开发流水线中的薄弱点，攻击者可以植入隐蔽后门。这些后门会在平时保持沉默，只有在特定条件下才会触发，从而实现定向攻击，并尽可能逃避检测。被投毒的模型可能会有选择性地误分类输入、泄露敏感信息，或在关键场景下表现退化。由于现代软件生态高度互联，这类攻击的影响被进一步放大，使攻击者能够同时影响整个数字供应链与 AI 基础设施，从而在保持隐蔽性和持久性的同时，波及无数系统和用户。

为了缓解高级供应链攻击与模型投毒，组织必须优先确保软件与 AI 开发流水线本身的安全。对第三方软件包与开源组件实施严格审查，包括代码审计、数字签名与依赖管理工具的使用，有助于在集成前发现并排除恶意代码。采用软件物料清单（SBOM）实践，可以提升对软件依赖的透明度，使组织能够更快识别并响应漏洞。对于 AI 系统而言，通过健壮校验机制、数据溯源追踪与对抗性测试来保障训练数据完整性，是降低模型投毒风险的关键。把版本控制、访问控制与自动完整性检查纳入安全开发流水线，也能有效防止未授权修改。此外，在生产环境中持续监控模型行为，并配合异常检测系统，可以及时发现那些暗示模型已被攻陷的偏移。通过这些措施，组织能够增强对供应链攻击的防御，并保护 AI 系统不受恶意操纵。

除此之外，组织还应借助自动化依赖扫描工具，如 Snyk、Sonatype Nexus 与 GitHub Dependabot，持续监控依赖库中的漏洞，并将这些能力整合到 CI/CD 流水线中，以便尽早发现并修复风险。生成 SBOM 则有助于增强对依赖关系的可见性，并有助于满足例如美国行政命令 14028 之类的合规要求。利用 Sigstore、in-toto 和 Supply Chain Levels for Software Artifacts（SLSA） 这类框架来确保供应链完整性，可以帮助验证软件工件的真实性，而密码学签名则可防止未授权篡改。此外，为了应对针对包管理器（例如 npm、PyPI、Maven）的高级供应链攻击，Sonatype 的 repository firewall 还能在恶意组件渗透生态系统之前将其阻断。通过这些策略，组织可以显著增强供应链安全，并确保开源依赖仍然是软件开发中可靠的基础。

对于 AI 组件本身，组织还可以使用 Protect AI 的 ModelScan 来检测恶意模型文件，为模型资产增加一层关键安全保护（protectai.com/modelscan）。这些措施共同强化了供应链安全，并帮助组织确保开源依赖与 AI 组件都能可靠地支撑其软件系统。

LLM 框架中的零日漏洞

攻击者若将目标对准 LLM 框架，便可能执行未授权代码、绕过安全控制，或大规模操控模型输出。LLM 框架本身通常高度复杂，不仅依赖众多第三方组件，还承载着高强度计算负载，因此天然拥有多个潜在可利用的入口。漏洞可能存在于模型加载机制中，使攻击者通过恶意构造的模型文件触发任意代码执行。内存处理层面的漏洞尤其令人担忧，因为 LLM 往往需要在内存中处理海量数据，而这可能被武器化为缓冲区溢出或内存泄漏。框架中的 API 端点也可能存在输入校验缺陷，从而引发注入攻击，影响提示词或模型参数。更进一步，LLM 的独特处理方式还会带来全新攻击路径，例如利用分词机制（tokenization），或借助加速硬件接口中的漏洞展开攻击。

为了缓解针对 LLM 框架的威胁，组织必须采取覆盖软件层与基础设施层的综合性安全方法。首先，应通过密码学方式验证模型文件，以确保它们来自可信源且未被篡改，从而保护模型加载过程。其次，应采用健壮的内存管理实践，例如遵循安全编码标准，并优先使用具备较强内存安全特性的编程语言，以减少缓冲区溢出与内存泄漏。对于 API 端点，则应执行严格的输入校验与净化，以防注入攻击；同时结合限流与认证机制，限制未授权访问与滥用。组织还应部署运行时监控工具，以检测例如异常代码执行、模型输出偏移等异常行为。对于硬件相关漏洞，则必须与硬件厂商协作，修补接口层缺陷，并增强加速器的安全防护。最后，定期开展安全审计、渗透测试以及针对 LLM 框架的对抗性评估，有助于提前发现新兴风险，并确保这些系统在面对利用时保持韧性。

为了检测并缓解 LLM 框架中的零日漏洞，组织可以借助 Metasploit 等渗透测试框架来模拟攻击、发现 AI 模型及其底层基础设施中的漏洞。与此同时，像 Aqua Security（www.aquasec.com/）这样的运行时保护工具，能够在容器化 AI 环境中提供实时监控与威胁检测，从而降低被利用的风险。

另一个值得关注的工具是微软的 PyRIT（Python Risk Identification Tool for LLMs） 。它是专门为评估 LLM 系统风险而设计的，因此可作为零日漏洞缓解中的补充工具。

微软 PyRIT 的关键能力包括：

对 LLM 进行红队测试：PyRIT 可以自动化地测试 LLM 是否存在提示注入、数据泄露或非预期模型行为等漏洞。它更聚焦模型本身，而非基础设施层，但它能够帮助识别那些源于模型如何处理输入的零日风险。
基于场景的测试：PyRIT 能模拟对抗性场景，例如构造恶意提示来利用 LLM 的逻辑，这有助于发现零日攻击者可能会利用的弱点。
与更广泛安全体系的集成：虽然 PyRIT 本身不是运行时工具，但它的发现结果可以用来指导像 Aqua Security 这样的运行时防护配置。例如，若 PyRIT 发现某种输入方式会触发模型漏洞，那么 Aqua Security 就可以被配置为在运行时直接拦截这类输入（aqua.awsworkshop.io/runtime_sec…）。

PyRIT 仍处于发展之中，目前主要关注模型层风险，而非基础设施层漏洞，因此最合适的使用方式是与 Metasploit、Aqua Security 等工具配合使用。

更多信息可参见：www.microsoft.com/en-us/secur…

跨模型攻击与可迁移性

针对某一种 LLM 开发出来的攻击技术，由于不同模型之间在架构与训练数据上往往具有相似性，因此有可能迁移到其他模型上。这意味着，在一个模型中发现的利用方式，可能会影响到分布在不同平台和不同组织中的多个模型。理解攻击的可迁移性，对于构建真正对多种 LLM 实现都有效的防御机制至关重要。

为了缓解跨模型攻击可迁移性带来的风险，组织应重点实施模型无关（model-agnostic）的安全策略。例如，可以通过对抗训练，在开发阶段让模型暴露于多样化攻击场景中，以提升其鲁棒性并减少被迁移型攻击利用的风险。建立面向多类 LLM 实现的标准化漏洞评估框架，也有助于识别共性薄弱点并开展协同响应。组织与平台之间协作共享威胁情报同样非常关键，因为这能让新发现的利用方式及其缓解措施更快传播开来。此外，通过监控模型输出中的异常与不一致性，可以及时发现利用尝试；而分层访问控制与健壮输入净化，则可以进一步缩小攻击面。通过这些措施，组织能够构建出不仅能抵御针对个别模型的攻击，也能抵御那些能够跨架构扩散的攻击的防御体系。

量子计算威胁

量子计算的到来，未来可能会威胁到当下用于保护数据与通信的密码学算法。虽然这一威胁并非立刻到来，但从长期角度看，仍有必要考虑量子计算对 LLM 安全的影响，尤其是在训练与推理过程所涉及数据的机密性与完整性方面。为了缓解量子计算带来的潜在风险，组织应主动向抗量子密码算法（post-quantum cryptography）迁移。这类算法专门设计用于抵抗量子计算攻击，同时继续保持对经典威胁的防御能力。对于 LLM 而言，要想保障训练数据、模型权重与推理输出的机密性和完整性，就必须升级静态数据、传输中数据以及计算过程中的加密协议。此外，组织还应评估现有密码学基础设施的量子脆弱性，并随着量子技术演进优先规划迁移路径。与 NIST 等标准化机构保持协作也很关键，因为 NIST 正在积极推动后量子密码标准的制定。与此同时，采用“经典算法 + 抗量子算法”相结合的混合密码学方案，也可以在正式迁移完成前提供中间期保护。只要尽早准备，组织就能更好地保护其 AI 系统及相关数据，免受未来量子能力支持下的攻击。

AI 驱动的恶意软件与自主攻击

攻击者正在利用 AI 与 LLM，使恶意软件与自主攻击工具的复杂度进一步提升。这类 AI 驱动威胁能够动态分析防御机制，并实时调整自身行为以规避检测。例如，借助机器学习的恶意软件能够智能选择阻力最小的路径，根据它所遇到的防御措施改变自身代码或执行方式。类似地，自主攻击能够在几乎不需要人工干预的情况下运行，依靠 AI 算法来识别漏洞、实施利用并最大化攻击效果。这使得传统网络安全方法——尤其是那些依赖静态规则或启发式检测的做法——越来越显得力不从心。

AI 驱动攻击还能够显著强化鱼叉式钓鱼（spear-phishing）行动，因为它可以在大规模条件下完成高度个性化内容生成，从而极大提升攻击成功率。此外，这类工具还可以优化勒索软件行动，自动完成敏感数据加密与外传，并以更高水平与受害者沟通。这种影响已经超出了传统网络安全范畴，因为 AI 驱动的网络武器可能被用来破坏关键基础设施、攻陷政府系统，或发起大规模虚假信息行动。

为了应对这些威胁，防御手段本身也必须演进，把 AI 融入预测分析、异常检测与实时响应之中。组织还必须提高其安全团队的 AI 素养，使他们能够理解并预判攻击者将如何运用这些新技术。政府与全球性组织也应协作制定伦理边界与监管框架，以规范 AI 技术的开发与部署，因为这些工具一旦被滥用，可能会在极大范围内重新定义网络威胁格局。

伦理操控与心理影响

LLM 的出现，从根本上提升了生成具有说服力且高度个性化内容的能力，而这种能力一旦被恶意利用，就会带来重大风险。对手可以利用这些模型构造欺骗性叙事，以操纵个体行为或影响大规模群体。此类内容的形态可以从逼真的钓鱼邮件，一直到旨在激化分裂与制造动荡的伪造新闻故事。

LLM 能够根据个体偏好、情绪状态与社会语境定制消息，这会显著提高其操纵效果，让接受者更容易受到影响。这种能力也带来了伦理问题，因为它模糊了“影响”与“胁迫”之间的边界。在心理层面，长期暴露于 AI 生成内容之下，可能导致认知偏差、对真实信息信任度下降，以及对宣传操控更高的脆弱性。例如，持续接收高度定制化错误信息的人，可能会变得更固守自身既有立场，从而进一步加剧社会极化。要应对这些风险，必须采取多维度方法。

技术手段，例如开发能够识别 AI 生成内容的算法，是必要的，但单靠技术远远不够。必须通过伦理框架来约束 LLM 的负责任使用，同时通过公众教育提升个体对操纵风险的认识。政府、学术界与私营部门都应开展合作，确保 AI 部署过程具有透明度，并建立防止滥用的安全护栏。与此同时，心理学研究也应继续探索 AI 操控型内容对人类的长期影响，从而帮助整个社会更好适应这项快速演进技术所带来的挑战。

可解释性与透明性挑战

随着 LLM 变得越来越复杂，理解并解释其决策过程也变得越来越困难。这些模型像黑盒一样运行，使开发者、用户与监管者都很难看清特定输出究竟是如何生成的。在安全敏感场景中，这种不透明性尤其危险，因为一旦无法理解模型决策背后的逻辑，就很难发现恶意活动，或有效处理非预期后果。

例如，一个用于金融交易的 LLM 若出现无法解释的错误，可能会带来重大经济损失；而在医疗场景中，如果无法理解模型给出某项建议的依据，则可能危及患者安全。可解释性同样对合规至关重要，尤其是在要求透明度的数据隐私法规或算法问责制度下更是如此。

如果组织无法清楚解释这些模型如何运作，它们在满足相关法规时就会面临困难，并因此承担法律与声誉风险。此外，缺乏可解释性还会削弱公众对 AI 系统的信任，尤其是在那些对可靠性与公平性高度敏感的高风险环境中。

当前，提高可解释性的方法——例如可解释机器学习技术，或把决策路径做成可视化呈现——已经成为积极研究方向。技术人员、政策制定者与伦理学家之间的协作也同样必要，因为只有这样，才能在透明度、性能与安全之间取得合理平衡。随着 LLM 被越来越广泛地部署到多个领域，优先提升透明性将成为构建稳健系统的关键，这不仅有助于应对技术层挑战，也有助于应对社会层面挑战。

与关键基础设施的集成

当 LLM 被部署到关键基础设施领域——例如医疗、金融、能源与交通——时，就会带来一种全新的安全风险维度。这些系统往往运行在对可靠性、安全性与精确性要求极高的环境中。一旦集成到这些系统中的 LLM 被攻陷，后果就可能是灾难性的。例如，针对用于医学诊断的 LLM 的对抗性攻击，可能导致误诊，从而影响患者预后；同样，若 AI 驱动的金融系统被操纵，则可能 destabilize 市场，甚至支持大规模欺诈；而在交通领域，被攻陷的 AI 系统可能会扰乱物流网络，或通过干扰自动驾驶车辆运行而危及生命。

关键基础设施中的 LLM 也是高价值目标，因为攻击者往往希望借此制造大范围破坏，或取得战略性收益。他们可能利用这些系统中的漏洞发起勒索攻击、提取敏感数据，或制造运营中断。要确保这些场景下 LLM 的安全，组织必须采取主动式方法，包括部署健壮的网络安全措施、持续监控以及明确的事件响应机制。监管框架也应要求在 AI 系统部署前进行严格测试与验证，重点检验其抵御对抗性威胁的能力。行业利益相关方、政府机构和学术界之间的协作，对于建立关键基础设施中 AI 安全相关标准与最佳实践至关重要。此外，推动 AI 专业知识与垂直领域知识相结合的跨学科研究，也将是解决这些高风险应用中 LLM 独特挑战的关键。

进一步说，像 NIST AI Risk Management Framework（AI RMF） 这样的监管框架，与诸如 Tenable.io 之类的工具，在关键基础设施场景中可以形成协同关系：前者提供结构化治理框架，后者负责技术执行。NIST AI RMF 通过四个核心功能建立风险管理基础：Govern（建立组织流程与责任机制）、Map（识别 AI 系统组件与风险）、Measure（通过指标与基准量化风险）、以及 Manage（实施缓解策略）。对于关键基础设施运营方来说，这类框架可以与 Tenable.io 等工具结合使用。Tenable.io 通过主动扫描、被动网络监控以及基于代理的检测，在 IT/OT 环境中持续开展漏洞评估。其 Predictive Prioritization 利用机器学习对海量漏洞与威胁情报进行分析，并生成漏洞优先级评分（VPR），这与 NIST 的 “Measure” 阶段天然对应，因为它能量化漏洞被利用的概率与业务影响。这种结合使组织能够通过自动化补丁管理流程与实时攻击面监控，更好地满足 NIST 中“安全且有韧性的 AI”这一特征要求——而这对于保护工业控制系统（ICS）与 SCADA 网络尤为关键。

威胁行为者的全球化

技术的全球化，使威胁行为者得以跨境运作，从而让攻击归因与法律追责变得更加复杂。网络对手可以利用司法辖区差异逃避侦测与起诉，从网络安全法律薄弱或执法能力不足的地区发起攻击。这对面临跨国威胁的组织而言意义重大，因为全球监管的不一致性本身就形成了可被攻击者利用的缝隙。

例如，一个位于缺乏引渡条约国家的网络犯罪分子，可能会攻击那些执法更严格国家中的目标，因为他知道法律反制的可能性很低。此外，国家支持型攻击者也常常利用技术全球化的现实，对地缘政治对手实施间谍活动、知识产权窃取或干扰性攻击。要应对这种跨国网络威胁，必须依赖国际协作以及更健全的法律框架。

各国政府必须协同推进网络安全法律协调、提升跨境合作效率，并实现实时威胁情报共享。建立国际联合工作组，或参与全球性网络安全论坛，都是增强集体防御能力的重要方式。

私营部门组织同样在应对全球威胁中扮演关键角色。它们可以通过采用标准化实践、参与信息共享网络，以及投资先进威胁检测技术来对抗这些全球性风险。公私合作伙伴关系则能够通过鼓励创新与协调共同努力，进一步提升整体韧性。随着网络威胁格局不断演化，建立一个有组织、全球化的响应体系，将是缓解那些日益复杂、地理上高度分散的威胁所必不可少的条件。

攻击工具与技术的演化

网络犯罪分子不断演化他们所使用的工具与技术，而他们往往使用的正是那些也在帮助防御者的技术进步。AI 被用于增强攻击能力，意味着防御策略也必须同步快速演化。这使攻防双方形成了一场持续升级的“军备竞赛”，双方都在试图通过技术手段取得优势。

现代网络犯罪分子越来越多地使用机器学习算法来自动化攻击、识别漏洞并规避检测系统。他们现在能够发起更复杂的钓鱼行动、制造更逼真的深度伪造，以及开发能够根据防御响应不断调整自身行为的自适应恶意软件。这类 AI 驱动攻击可以以前所未有的速度和规模运行，使传统安全措施显得捉襟见肘。

要保持领先，组织必须持续学习、持续适应，并投资于先进安全技术。组织必须部署动态防御系统，使其能够自动检测新兴威胁并做出响应。这包括引入 AI 驱动的安全工具，用于分析模式、预测潜在攻击，并在安全事件发生时做出实时反应。

下一代 LLM 安全挑战的典型特征，是威胁在复杂度、规模与多样性上的全面提升。从提示注入攻击到数据投毒企图，这类系统面临的是一组极其独特的脆弱点。要有效应对这些挑战，必须采取多维方法，将先进技术防御、伦理考量、监管合规以及以人为中心的策略结合起来。

通过预判这些新兴威胁，组织能够为其 LLM 系统及利益相关方建立主动防御措施。这意味着需要定期安全审计、健壮的模型监控、完善的测试框架，以及成熟的事件响应流程。要在这片不断变化的格局中取得成功，关键在于在创新与安全之间找到平衡，确保技术进步不会反过来破坏系统完整性。下一节，我们将进一步关注一些网络防御中的创新性解决方案。

有前景的防御创新：研究前沿与尖端技术

随着 LLM 的安全格局不断演化，对先进防御策略的需求也在不断增长，以保护系统免受新兴威胁。研究者与实践者正站在开发创新技术的前沿，努力增强 LLM 的安全性与韧性。这些前沿方法既包括技术进步，也包括伦理框架，其共同目标是保护这些强大 AI 系统免受复杂攻击。下图对这些防御创新进行了概览，后续小节将对图中的内容展开更详细说明。

图 13.1——有前景的防御创新

用于提升 LLM 安全性与准确性的强化学习

强化学习（RL）为训练 LLM 提供了一种范式转移：它不再只是预测下一个词，而是主动塑造模型行为，使之朝着期望结果——例如安全性与准确性——演进。从根本上说，RL 将 LLM 视作一个代理（agent），它在由输入提示词与不断演化的对话共同构成的环境中行动。代理的“动作”就是它生成的文本序列。与依赖明确输入—输出样本对的监督学习不同，RL 使用奖励函数（reward function）作为关键反馈机制。这个函数会对被视为理想的响应——连贯、有帮助、事实准确，且最重要的是安全——给予正向奖励；而对带有偏见、毒性或虚假信息等不理想输出给予惩罚。代理的最终目标，是学习出一个策略（policy），即从“环境状态”（输入提示与对话历史）到“最优动作”（生成文本）的映射。这个策略会被不断迭代优化，以最大化长期累积奖励。

策略优化通常会采用 PPO（proximal policy optimization） 之类的算法（参见 spinningup.openai.com/en/latest/a…），因为这类算法在稳定性与样本效率方面表现较好。RL 中一个核心挑战，是如何在探索（exploration）与利用（exploitation）之间保持平衡。代理必须去探索——通过生成新颖回应进入未被探索区域，以发现更高奖励；同时又必须利用——选择那些已知会带来正反馈的动作。常见做法包括 epsilon-greedy 探索，或使用随机策略来在二者之间取得平衡。更进一步，在面向 LLM 的 RL 中，安全约束并不是“事后补救项”，而是深度嵌入训练框架中的部分。这些约束可以直接写入奖励函数，例如对生成有害内容给予强烈惩罚；也可以通过独立安全过滤器来强制执行，对模型输出进行主动修改，以确保其符合预设安全准则。因此，强化学习为训练 LLM 提供了一个强有力框架，使其能够学习复杂行为、处理自然语言中的细微差别，同时遵守安全与伦理边界。

例如，领先 AI 公司 Anthropic 就以一种非常新颖的方式使用强化学习，目标是把安全与对齐反馈过程自动化。它不再完全依赖人工反馈——后者代价高昂——而是引入了“宪法（constitution）”这一概念：一组明确原则，用来描述 LLM 应表现出的理想行为。这些原则覆盖广泛伦理与安全议题，例如：模型应优先给出“伤害最小化”的回答、避免鼓励非法行为、或避免使用带偏见的语言。其巧妙之处在于：它使用另一个 AI 模型（通常是主模型的一个变体）来充当“批评者（critic）”。这个 critic 会根据宪法来评估主 LLM 的回答，并通过偏好判断（preference judgments）的形式提供反馈。这些反馈随后会被用来构建奖励模型，再通过强化学习（具体来说是 PPO 等算法）来指导主模型训练。这样就形成了一个自我提升循环：模型不断调整其回答，使之更符合“宪法”。Anthropic 还会结合红队方法，主动尝试诱导模型输出不希望出现的内容。红队发现会进一步反向推动宪法更新、critic 优化以及训练流程改进，从而使模型随时间变得更安全、更稳健。Anthropic 的研究——包括论文 Constitutional AI: Harmlessness from AI Feedback——表明，这种方法在减少有害输出方面，能够达到甚至超过传统 RLHF 的效果，同时不损害模型的有用性。这为把安全灌输进 LLM 提供了一种更可扩展、更一致的方法。更多信息请参见：www.anthropic.com/research/co…

再举一个例子，DeepSeek 尤其是在其 DeepSeek-R1 模型上，也采用了非常有特色的 RL 方法，用于构建高级推理能力，而且不依赖监督微调。在其 DeepSeek-R1-Zero 方法中，模型从基础状态出发，完全依赖强化学习，通过试错自主学习。这个过程由一种面向特定任务的基于规则的奖励系统驱动，例如数学、编程与逻辑推理——这些任务通常具有清晰、客观的结果，可以直接作为反馈信号（如正确答案或可运行代码）。模型通过最大化这些奖励不断迭代优化其回答，等于是在“自我学习如何一步一步推理”，并最终获得了可与 OpenAI o1 等顶级模型竞争的性能，同时训练成本相对较低。这种由 RL 驱动的方法绕过了对大规模人工标注数据的依赖，展示了 DeepSeek 通过自我导向学习打造高效高性能 AI 系统的能力。在我看来，如果 DeepSeek 把类似的 RL 后训练过程应用到安全目标上，它可能会产生一个更强、也更安全的推理模型。

通过差分隐私保护 LLM 中的敏感数据

差分隐私（Differential Privacy）为确保 LLM 的训练过程不损害参与者隐私，提供了一种严格的数学框架。它通过向训练数据或模型输出中加入经过精确校准的噪声，保证任意单个数据点的存在或缺失，对最终训练出的模型影响都可以忽略不计。这一性质通常通过 epsilon（ε）与 delta（δ）来形式化表示。Epsilon 用于量化在一次查询或一次计算中所带来的隐私损失，值越小，隐私保证越强；Delta 则表示在极少数情况下，隐私保证可能被破坏的概率。实现差分隐私的核心机制，是向数据或计算过程中加入噪声，这些噪声通常来自高斯分布或拉普拉斯分布。噪声量与待计算函数的“敏感度”成正比。所谓敏感度，是指当输入中的某一个数据点被替换时，该函数输出可能发生的最大变化。差分隐私还有一个重要性质，即可组合性（composability） ：若对同一个数据集执行多次差分隐私计算，则总隐私损失可以被追踪并设定上界。

下面来看 Google 如何把联邦学习与差分隐私结合起来，用于训练 LLM。联邦学习允许模型在分布式数据上训练，例如直接在用户手机等终端设备上训练，而无需把敏感数据集中到一个中央服务器。每台设备都会基于自己的本地数据训练模型副本，然后只把更新后的模型参数——而不是原始数据本身——传回中央服务器。这里就引入了 DP-SGD。在设备发送更新参数前，它会先在本地执行 DP-SGD，即：对由本地数据计算出的梯度进行裁剪（clipping），再加入精确校准的噪声。这一步可以确保传输回去的更新参数不会无意泄露关于单个用户数据的敏感细节。为了进一步增强隐私，Google 往往还会配合使用安全聚合协议（secure aggregation protocols） ，使中央服务器只能得到所有参与设备噪声更新的聚合结果，而无法看到任何单台设备的单独更新。这提供了额外一层隐私保护。Google 还在积极研究如何在联邦学习场景下自动调整 DP-SGD 的超参数，以便在隐私与模型效用之间取得最佳平衡。他们使用像 Rényi Differential Privacy 这样的高级隐私记账技术，对多轮联邦学习过程中的累积隐私损失进行精确量化。借助这种严格量化，Google 能够为那些贡献自己数据参与训练的用户提供强而可度量的隐私保证。Google 近期的研究，例如 Learning Differentially Private Recurrent Language Models，已经证明了：这种联邦学习 + 差分隐私的组合方式，可以在保持强隐私保证的同时训练出高质量语言模型。一个典型例子，就是使用用户的打字数据训练“下一个词预测模型”：通过联邦学习与 DP-SGD，Google 可以改进键盘联想体验，而不必集中收集或存储用户的原始打字内容。

通过对抗训练增强 LLM 防御能力

对抗训练（Adversarial Training）是一种非常有力的方法，用于增强 LLM 面对恶意输入时的鲁棒性。这类恶意输入被称为对抗样本（adversarial examples），它们通常只是对正常输入做了细微修改，对人类几乎不可察觉，但却可能让模型输出错误、异常甚至有害内容。对抗训练的核心思想，是在训练阶段主动让模型接触这些对抗样本，迫使模型学会识别并正确处理它们。这与传统训练方法不同，传统训练一般只围绕干净、未受扰动的数据展开。通过把对抗样本纳入训练集，模型相当于提前“接种疫苗”，从而对偏离正常分布的输入拥有更强抵抗力。对抗样本本身的生成也是一个复杂而不断演进的研究领域。常见方法各有优缺点。基于梯度的方法，例如 FGSM（Fast Gradient Sign Method） 与 PGD（Projected Gradient Descent） ，利用模型梯度寻找对输入施加最小扰动却能最大化预测错误的方向。其他方法还包括遗传算法——利用进化式思想不断优化对抗样本——甚至强化学习，即训练一个代理来专门生成高效对抗性提示。

对抗训练的效果，高度依赖于所采用对抗样本的质量与多样性。因此，构建能够覆盖尽可能多攻击向量的数据集至关重要。这类数据集应包括试图利用各种漏洞的样本，例如提示注入——恶意指令被嵌入看似无害的提示中——以及数据投毒——直接操控训练数据本身，从而影响模型行为。评估经过对抗训练的模型鲁棒性，也需要超越标准准确率指标，采用专门评估方法。这些指标往往聚焦于“模型在攻击条件下的表现”，例如攻击成功率（attack success rate），即有多少比例的对抗样本成功欺骗了模型；以及在不同扰动预算（perturbation budgets）下的鲁棒性，衡量模型面对不同程度输入修改时的承受能力。对抗攻击下的鲁棒性，是 LLM 能否安全用于真实场景的关键前提。

以 Meta AI 在其 LLaMA 模型上的工作为例（LLaMA 是 Large Language Model Meta AI 的缩写），我们可以看到它在把对抗训练纳入开发流水线方面付出了持续努力。Meta AI 清楚认识到鲁棒性的重要性，尤其考虑到像 LLaMA 这类开源模型，对潜在攻击者而言可获得性更强。他们正在积极提高 LLaMA 面对多种攻击的韧性，尤其聚焦提示注入与数据投毒。为实现这一目标，Meta AI 大量投入于高质量对抗训练数据集的建设。这些数据集经过精心整理，覆盖了多种试探模型不同脆弱点的对抗样本。例如，它们可能包含试图绕过安全过滤器、诱导有害响应，或提取敏感信息的提示。生成这些样本的方法也具有多样性，包括使用 PGD 等基于梯度的方法、遗传算法，甚至可能还包括强化学习。这种多管齐下的方式，确保训练集能覆盖尽可能广泛的潜在攻击向量。Meta AI 在评估 LLaMA 鲁棒性时，也采用了严格指标体系，不仅看标准准确率，还关注在不同扰动预算下的攻击成功率等指标。此外，他们还在探索一些补充性防御机制，例如输入过滤——在恶意输入抵达模型前将其识别并中和——以及输出净化（output sanitization），即对模型输出进行后处理，以移除潜在有害内容。同时，他们还在研究进一步强化模型本身的技术，以使模型在结构上更难被对抗性操纵。通过开源 LLaMA，Meta 也把更广泛的研究社区动员起来，共同发现其薄弱点，并通过对抗训练持续提升鲁棒性。他们会根据社区反馈和最新研究成果，不断更新模型和训练方法。其一项关键重点，就是防范那些可能绕过安全措施或诱导有害输出的提示注入，确保 LLaMA 始终保持安全与可靠。更多信息请参见：ai.meta.com/blog/meta-l…

可解释人工智能（XAI）

可解释人工智能（Explainable AI，XAI）正在通过提升透明度与可解释性，对 LLM 安全作出重要贡献。例如，Anthropic 在增强 LLM 可解释性方面取得了显著进展，其于 2024 年 5 月发布的一项开创性研究（www.anthropic.com/research/ma…）就很好地展示了这一点。该论文揭示了他们如何从 Claude 3 Sonnet 的中间层中提取出数百万个概念，这是第一次对一个现代化、生产级 LLM 的内部结构做出如此细致的观察。通过一种先进的字典学习技术，Anthropic 识别出了概念是如何分布在多个神经元上的：每个概念由多个神经元共同表示，而每个神经元又同时参与多个概念的表示。研究发现，模型内部存在一个丰富的特征空间，既有具体特征，也有抽象特征。具体特征对应于诸如城市（如旧金山）、科学人物（如 Rosalind Franklin）、化学元素（如锂）以及编程语法等实体。更复杂的抽象特征则包括软件漏洞、职业中的性别偏见，以及关于保密性的话题。尤其值得注意的是，这些特征具备多模态与多语言能力：它们不仅会对图像和文本都产生响应，而且跨多种语言都有效。

该研究最重要的发现之一，是这些概念之间存在有意义的关系。研究团队开发了一种基于神经元激活模式来衡量特征间距离的方法，并发现概念之间存在逻辑聚类。例如，与金门大桥相关的特征，会聚集在其他旧金山地标与文化元素附近。类似地，抽象概念之间也会形成有意义的分组，例如“内心冲突”会与关系挣扎、忠诚冲突等相关概念聚在一起。

研究团队还证明，他们能够主动操控这些特征，即人为放大或压制某些特征，从而改变模型行为。这带来了若干与安全密切相关的重要发现，包括与潜在有害能力（例如代码后门）、偏见模式，以及诸如逐利（power-seeking）或操控倾向等问题性 AI 行为相关的特征。团队甚至识别并操控了与逢迎行为（sycophancy）相关的特征。不过他们也强调，这项研究的目的在于理解并提升安全性，而非赋能有害能力。

尽管这项突破显著推进了 AI 可解释性研究，Anthropic 也明确指出其中仍有重要局限性。他们所发现的特征，只是模型中已学概念的一部分，而要找到完整概念集，在计算上几乎不可承受。并且，即便他们现在已经能够识别这些表示形式，模型究竟是如何主动使用这些表示的，仍然需要进一步研究。这项工作为未来通过更好的监控、引导和安全增强来提升 AI 安全打开了新的可能性。

此外，像 LIME 与 SHAP 这样的工具，也可用于弥合“模型复杂性”与“人类理解能力”之间的鸿沟。LIME 通过在局部构建一个简化近似模型来解释黑盒模型，例如在文本情感分析任务中高亮关键词，或在图像分类任务中标出关键像素，因此它特别适用于那些需要实例级透明性的简单场景。而 SHAP 则利用博弈论原理，量化每一个特征对预测结果的贡献，既能提供粒度较细的局部解释（例如说明收入与信用历史如何影响某个人的贷款审批），也能提供对模型整体行为的全局洞察，不过在大规模数据场景下计算成本更高。这两类工具分别适用于不同需求：LIME 强调灵活性与轻量性，而 SHAP 更注重数学严谨性与稳定性——尤其在医疗、金融等高敏感领域中，后者的一致性解释尤为重要。与这些解释框架并行，Anthropic 对神经网络行为的研究进一步揭示了神经元激活模式是如何编码从具体实体到抽象概念的。通过映射神经元组合，他们证明了某些神经元聚类模式对应着人类可理解的语义，这为定向压制有害输出或提升透明性提供了现实可能。

具备内生抗攻击能力的安全模型架构

面向安全的模型架构正在不断演进，研究者与公司都在不断推动其边界。其核心思想始终不变：把安全能力直接构建到 LLM 的结构中，而不是完全依赖外部防御。这意味着要采用模块化、封装化设计，将潜在攻陷的影响限制在局部，并尽可能缩小整体攻击面。当前趋势正在朝着更细粒度模块化方向发展：不仅为特定任务划分专门模块，甚至在模块内部也继续细分出更小单元。这样做的好处是，安全措施可以更有针对性地更新与部署，同时也更容易隔离敏感数据与关键计算。封装技术也在不断增强，对模块间通信与数据访问施加更严格控制。这可以确保一个模块中的漏洞不容易传播到其他区域，从而把潜在损害控制在局部。最终目标，是让 LLM “默认就具备鲁棒性”，也就是说，安全能力被深深嵌入模型架构 DNA 之中。

一个体现这一趋势的近期研究方向，是 LLM 中功能隔离神经模块（Functionally-Isolated Neural Modules） 。虽然目前尚未归属于某一家特定公司，但多个研究实验室与科技巨头都在积极探索这一方向。2024 年初，一些顶级 AI 会议论文已经开始讨论这一概念。例如，有研究者提出一种架构：把推理、事实检索和创造性文本生成等功能分别交给不同模块来处理。这些模块从设计开始就强调严格隔离，尽可能限制数据共享与通信，只允许通过定义清晰的通道完成交互。它们可以借助注意力机制，在模块间有选择地共享信息，确保只交换确有必要的数据。设想一个为 LLM 提供搜索能力的外挂模块，这个模块专门负责访问和处理外部信息，但它只拥有非常受限的权限来接触核心语言模型。这样一来，即便外部数据源被攻陷，其风险也更容易被限制在该模块内部，而不会蔓延到整个 LLM。此外，这个模块还可以根据其功能特点，设计成具备更强安全防护的组件，例如更严格的输入校验与净化，以防注入攻击。其核心思路在于：若外部数据源出问题，那么损害会被困在隔离模块内部，而不会影响整个 LLM。类似地，我们也可以设想一个专门用于创造性文本生成的模块，它可以独立运行，而不需要接触敏感用户数据或内部模型参数。这种方法不仅通过缩小潜在影响范围来提升安全性，也会提升模型整体的鲁棒性与可解释性。目前研究者还在进一步探索如何为这些模块增加更高级安全机制，例如特殊加密方式或额外安全层。

通过联邦学习实现去中心化训练与增强隐私

联邦学习（Federated Learning）正在持续获得关注，被视为一种既能保护隐私、又能增强安全性的 LLM 训练方法。其核心原则并未改变：在多个设备或服务器之间进行模型训练，而不集中收集敏感数据。这种去中心化方法降低了数据泄露与单点失效带来的风险。近年来，联邦学习的进展主要集中在提升训练过程的效率与可扩展性，以及强化隐私保证。例如，研究人员正在探索异步更新（asynchronous updates），使不同设备不必完全同步地参与训练，而是按各自节奏贡献更新，从而让联邦学习更适合真实世界部署。与此同时，研究界也在开发更复杂的聚合算法，以处理联邦环境中广泛存在的非独立同分布（non-IID）数据，因为不同设备上的数据分布往往差异极大。在隐私方面，越来越多工作开始把联邦学习与其他隐私增强技术结合使用，例如安全隔离区（secure enclaves）与同态加密（homomorphic encryption），从而进一步增强对敏感数据的保护。所谓安全隔离区，是设备中的一种基于硬件的安全能力，可在设备内部创建隔离执行环境，即便操作系统已被攻陷，代码与数据仍能得到保护。

联邦学习的一个经典例子，是 Google 用它来改进 Gboard 移动键盘。数以百万计的 Android 用户每天使用 Gboard 打字，从而不断产生大量文本数据。这些数据天然具有隐私属性，因为它们反映了用户的个人沟通方式，甚至可能包含敏感信息。Google 利用联邦学习来改进 Gboard 的下一个词预测和其他语言模型能力，而无需从用户设备中收集原始打字内容。在这种实现中，每个用户设备都基于本地打字模式训练一份语言模型副本。随后，这些设备会定期向中央 Google 服务器发送加密后的模型更新，而不是发送原始数据本身。Google 还使用安全聚合技术，以在保护单个用户隐私的前提下，把来自大量设备的更新结合起来。聚合后模型会再次分发回各个设备，由此带来更准确的预测与更个性化的用户体验。

下一节中，我们将继续聚焦更多安全前沿研究议题。

LLM 安全中的其他前沿研究议题

除了前面讨论的几类有前景的防御创新之外，本节还进一步补充若干前沿研究方向。

自动化威胁检测系统 正在变得越来越复杂，它们利用 AI 与机器学习实时监测异常活动。通过分析输入提示词与模型输出中的模式，这类系统能够在威胁发生时立即发出警报。这样的即时检测能力，使组织可以更快响应威胁，降低潜在损害并防止攻击升级。

高级加密方法，例如同态加密，也正在被用于保护与 LLM 相关的数据。同态加密允许在数据保持加密状态的前提下进行计算，无需先解密即可完成处理，从而在整个处理生命周期中持续保持机密性。这一点在训练与推理过程中尤其重要，因为一旦敏感数据在这些阶段暴露，就可能造成严重安全后果。

严格的用户认证与访问控制，也是防止未授权交互的重要保障。通过 MFA、生物识别验证和动态权限控制，可以降低来自内部人员与外部攻击者的双重风险。安全访问协议确保只有经授权的个体，才能影响 LLM 或从中获取信息，从而维护系统的完整性与机密性。

协作型安全平台 正在推动一种更具社区属性的 LLM 安全模式。通过在组织与研究者之间共享威胁情报、最佳实践和安全工具，这类平台增强了整个生态系统应对新威胁的集体能力。协作不仅能加快有效防御策略的开发，也有助于打造一个更安全的 AI 生态。

持续学习与适应机制 对于维持 LLM 防御效果同样至关重要。通过让模型拥有从新威胁中学习的能力，它们可以更新知识库并适应新攻击模式。这种动态方法对于一个持续演化的威胁格局来说至关重要，它能确保防御始终对最新漏洞保持韧性。

红队与渗透测试 等技术，则在受控环境中模拟攻击，帮助组织理解潜在弱点并提前修复。严格测试能确保 LLM 满足安全标准，并在不同条件下都能稳定运行。

最后，随着量子计算逐渐成熟，面向后量子密码学的准备 也成为一个日益重要的研究方向。传统加密方法未来可能会失效，因此现在就探索抗量子加密方案，能够为 LLM 及其处理的数据提供长期安全保障。提前布局这些未来威胁，能够帮助组织更好地防御潜在的量子攻击。

当 LLM 安全领域不断出现尖端创新时，同样重要的是，组织也必须同步应对那些不断演化的法律与伦理框架。下一节将转向监管环境，讨论在 AI 快速演进时代，组织应如何在保持合规与可信之间取得平衡。

演化中的监管环境：如何应对不断变化的合规要求

随着 LLM 日益融入各类行业，围绕人工智能的监管环境也在迅速演变。世界各地的政府与监管机构都在努力应对高级 AI 系统带来的挑战，并因此不断出台新的法律、指导原则与合规要求。使用 LLM 的组织，必须在这一复杂环境中前行，以确保法律合规、伦理完整性与公众信任。

图 13.2 提供了这一不断变化监管环境的高层可视化概览。我们将在后续文字中展开详细说明。

图 13.2——演化中的监管环境概览

AI 部署的加速，引发了围绕隐私、安全、偏见与问责的多方面担忧。作为回应，监管者正在制定政策以解决这些问题，希望一方面保护个人与社会免受潜在伤害，另一方面又不扼杀创新。这种动态变化为组织带来了挑战：它们既要适应仍在不断变化中的法规，又要应对不同司法辖区之间巨大的差异。

数据隐私法规

监管最重点关注的领域之一，就是数据隐私。像欧盟《通用数据保护条例》（GDPR）这样的立法，对个人数据的收集、处理与存储提出了严格要求。LLM 往往依赖海量数据集，其中可能包含个人信息，因此必须以符合这些隐私标准的方式进行设计与运行。这意味着需要实施数据最小化原则、获取恰当同意，并确保个体的访问、更正和删除其数据的权利得到尊重。

透明性与可解释性

透明性与可解释性，也正在逐步成为法律层面的刚性要求。监管者已经意识到，AI 决策过程的不透明可能会导致不公平或歧视性后果。因此，越来越多法律要求组织必须对 AI 驱动的决策给出解释，尤其是在金融、医疗或就业等会对个体产生重大影响的场景中。对于天生复杂的 LLM 来说，这意味着必须发展出能够解释“输入如何被转化为输出”的方法，从而让用户和受影响方理解并信任系统行为。

偏见与公平性

AI 输出中的偏见与公平性，也正面临严格审视。监管机构要求组织建立机制，以识别并缓解源自训练数据或模型架构的偏见。组织必须主动评估其 LLM 是否包含带偏内容，并采取纠正措施。这不仅意味着采用技术手段，还要求在数据整理过程中真正坚持多样性与包容性。如果不能正视偏见问题，组织不仅可能面临法律处罚，也会承担声誉损害与消费者信任流失的代价。

国际监管

国际性监管，又进一步增加了复杂度。跨国组织必须面对一张由不同国家法规拼接而成的“补丁地图”，而这些法规之间往往差异巨大。缺乏统一协调，意味着组织不得不针对每个司法辖区分别设计合规策略。这要求它们与法律专家保持密切合作，甚至可能需要调整业务结构，以适应地区差异。此外，数据主权法律还可能限制跨境数据流动，从而直接影响 LLM 在何处以及如何训练和部署。

在美国，监管模式正在联邦与州两个层面上逐渐形成。尽管目前尚无完整统一的联邦 AI 法规，但例如美国联邦贸易委员会（FTC）这样的机构，已经发布了关于 AI 使用的指导意见，强调公平、透明与问责。与此同时，像加州这样的州，也已经出台了自己的隐私法律，例如《加州消费者隐私法案》（CCPA），对处理个人数据的组织增加了额外义务。持续跟踪这些发展，对于保持合规极其关键。

中国则采取了更具规定性的路径，直接通过法规来约束 AI 技术，包括 LLM。中国政府已经发布指导要求，对安全评估、内容控制与用户数据保护作出明确规定。那些在中国境内运营，或与中国有业务往来的组织，都必须满足这些严格要求，而这往往意味着其 AI 系统与相关实践需要做出较大调整。

欧盟则处于 AI 监管最前沿，其中 《欧盟人工智能法案》（EU AI Act） 已于 2024 年 8 月 1 日 正式生效。这是首个覆盖整个欧盟范围、针对 AI 系统的综合性法律框架。关于该法案的生效与实施，有以下几个关键点：

《欧盟人工智能法案》于 2024 年 7 月 12 日 正式刊登于欧盟官方公报
它已于 2024 年 8 月 1 日 在全部 27 个欧盟成员国范围内生效
大多数条款的全面执行将从 2026 年 8 月 2 日 开始

不过，它的实施采用了分阶段生效方式：

2025 年 2 月 2 日：对“不可接受风险”AI 系统的禁止条款开始生效
2025 年 8 月 2 日：关于通知、治理、通用 AI 模型以及处罚的条款开始适用
2026 年 8 月 2 日：法案开始适用于附录 III 中列出的高风险 AI 系统
2027 年 8 月 2 日：整个法案在所有风险类别上全面适用

EU AI Act 的核心特征包括：

该法案采用基于风险（risk-based）的方式监管 AI 系统：

不可接受风险（Unacceptable risk） ：某些 AI 实践被直接禁止
高风险（High-risk） ：适用于医疗、教育、执法等领域中的系统，需满足严格要求
有限风险（Limited risk） ：适用于聊天机器人等系统，主要承担透明度义务
最低风险（Minimal risk） ：多数 AI 系统无需承担强制义务，但可自愿采用行为准则

关于执行与处罚，其关键点包括：

不合规最高罚款可达 3,500 万欧元，或企业全球年度营业额的 7% ，取两者中更高者
欧盟于 2024 年 2 月 成立的 European AI Office，将与成员国协作共同负责执法监督

合规自动化

监管合规的意义，并不只是为了避免处罚；它本身也可以成为建立信任与形成竞争优势的机会。能够证明自己符合相关法律与伦理标准，会增强组织声誉、提升客户忠诚度，并在市场中形成差异化。它向消费者与业务伙伴表明：该组织真正重视负责任 AI，这对于那些越来越关心隐私与伦理的客户和合作方来说，可能正是决定性因素。

组织应建立专门的合规团队，其中应包括法律、技术与政策专家。这些团队能够持续跟踪监管动向、解释其实际影响，并指导组织落实必要调整。通过定期培训与意识提升项目，也能确保所有利益相关方清楚理解自己在合规中的职责。

积极与监管机构沟通，并参与政策讨论，也同样有价值。组织通过参与监管规则的形成，不仅能帮助塑造更加现实有效的政策，也能更早获得关于监管意图与时间线的洞察，从而更好地提前准备并与即将到来的要求保持一致。

技术方案本身也能帮助组织提升合规能力。部署合规管理系统，可以自动追踪监管要求以及组织自身的执行情况。支持数据治理、同意管理与审计轨迹的工具，也能在检查或问询中帮助组织证明其合规状态。

组织还应考虑主动采用超越法律最低要求的行业标准与认证。尤其值得注意的是，下列三个组织所开展的研究与开放标准化工作，在业内实践者中都拥有很高声誉，我强烈建议你持续关注它们的工作：

World Digital Technology Academy：wdtacademy.org/publication…
OWASP Top 10 for LLM Applications：github.com/OWASP/www-p…
Cloud Security Alliance AI Safety Working Groups（本章作者即为其联合主席）：cloudsecurityalliance.org/ai-safety-i…

通过行业协会或联盟与同行合作，也能帮助组织实现经验共享，并共同制定应对监管挑战的标准化解决方案。通过合作，组织可以共同应对行业共性问题、影响政策走向，并建立有利于整个行业的统一方法。

除了通过应对监管环境来提升合规水平与安全姿态之外，积极参与 LLM 安全社区本身，也能带来额外价值。

协作的重要性：积极参与 LLM 安全社区

对于希望保护其 AI 系统免受复杂威胁的组织而言，参与 LLM 安全社区并非“有帮助而已”，而是必要条件。社区中所蕴含的集体智慧、共享经验与多元视角，对推进安全措施与促进创新都具有重大价值。下图概述了协作在 LLM 安全中的重要性：

图 13.3——协作在 LLM 安全中的重要性

知识共享

协作首先带来了知识与最佳实践的共享。当组织与研究者不断遭遇新挑战、并提出新的解决方案时，把这些经验传播出去，能够帮助其他人避免踩入同样陷阱，并提升整个生态系统的安全水平。通过参与围绕 LLM 安全的会议、研讨会与在线论坛，专业人员可以及时掌握最新发展、工具与技术。这种共享学习环境，能够显著加快全行业采用有效安全策略的速度。

威胁情报

威胁情报协作，则使得威胁情报能够在生态中流动，而这对识别并缓解新兴风险至关重要。共享漏洞细节、攻击方法与已观察到的利用手法，可以帮助组织构建主动防御。通过汇聚数据与洞察，利益相关方能够发现单一组织无法轻易看出的模式与趋势。这种集体式的威胁监测与响应，有助于打造更具韧性的基础设施，并确保防御始终领先于对抗性战术。

开源倡议

参与开源社区，也是协作的一个重要方面。开源项目使组织能够一方面贡献力量，另一方面受益于集体努力，共同推动 LLM 安全改进。通过参与这些项目，组织还能影响安全工具与框架的发展方向，确保它们真正满足不同利益相关方的需求。开源倡议还会增强透明度与信任，因为代码与方法论都可以接受公众审视与改进。

学术界与产业界合作

学术界与产业界的合作，在推动 LLM 安全方面发挥着关键作用。学术研究者提供前沿理论与方法，而行业实践者则带来真实世界中的实践洞察与数据。合作研究项目与实习机制，能够弥合“理论”与“实践”之间的差距，进而催生既先进又可落地的创新解决方案。这类合作还会帮助培养下一代安全专业人才，为行业持续注入新想法与新能力。

全球协作

考虑到 AI 开发与部署本身就是全球化现象，国际层面的协作尤为重要。与国际组织及海外从业者合作，能够把更丰富的经验与视角带入 LLM 安全讨论之中，进而增强整体理解。面对那些不受地理边界约束的威胁，跨国协作是不可或缺的；若要建立在全球范围内更一致的安全标准，国际合作同样是基础条件。

总结

本章帮助你掌握了在快速演进的 LLM 安全领域中保持领先所需的关键能力。你学习了如何预判并准备应对新兴威胁，从而形成一种主动思维模式，使你能够在漏洞真正被利用之前，就提前识别并准备防护。这种前瞻性方法，在高速变化的 AI 安全世界中至关重要。

当我们在此结束本书时，你已经可以把本书中所学应用到你的下一个 LLM 项目中。你可以运用书中讨论过的基于风险的方法，来处理 LLM 安全风险；你也应持续关注 LLM 安全漏洞领域的最新发展，例如跟进 OWASP Top 10 for LLM 社区的研究工作，包括他们近期围绕 AI Agent 安全、红队指南 以及其他持续推进工作的成果。