艾体宝方案|创建 AI 物料清单 (AI BOM) 以保障生成式 AI 安全

0 阅读9分钟

您的 AI 系统底层在发生什么?AI 现在是现代软件应用程序的关键要素,如果您对其组件没有可见性,您将会一无所知。与软件物料清单 (SBOM) 类似,AI 物料清单 (AI Bill of Materials, AI BOM 或 AIBOM) 已成为记录和保护这一新兴复杂供应链的关键框架。

本文是关于影子 AI 系列文章的一部分。

AI BOM vs. SBOM

AI BOM 和 SBOM 的目标是相同的——为数字供应链提供急需的可见性。然而,SBOM 通常关注软件组件中的第三方库、版本、许可证和漏洞,而 AI BOM 则将其提升到一个新的水平,将这一概念扩展到 AI 模型的整个生命周期。想想训练数据集、模型权重和数据增强技术等工件,您就会开始想象其中包含的内容。

实施 AI BOM 的好处

组织在实施 AIBOM 时可能首先考虑到的好处是它们获得的透明度。用于构建和部署 AI 系统的所有内容,包括其训练数据集、算法、库和框架,以及所有依赖项和正在做出的决策,都被公之于众,并被编目和可追溯。这为 AI 安全增加了一层保障,有助于识别风险敞口、缓解漏洞,并满足审计的合规需求。AIBOM 可以帮助培养和建立对 AI 系统的信任,特别是对于滞后的采用者或组织内有顾虑的人。

在幕后,AI BOM 对提高运营效率也大有裨益。团队可以轻松重用有文档记录的组件,扩大 AI 系统的复制规模,并更容易地与不同团队中的其他 AI 利益相关者进行跨部门协作。

AI BOM 如何帮助保障 GenAI 安全?

AIBOM 还有助于减少 AI 特有的担忧,这些担忧超出了传统应用程序的风险范围。

  • 防止数据泄露​:通过详细说明训练数据来源和访问控制,AI BOM 有助于确保敏感或专有信息在模型开发过程中不会被无意中使用或泄露。
  • 检测对抗性风险​:AI BOM 为模型输入和配置提供了可追溯性,帮助团队识别对对抗性输入或投毒攻击的易感性。
  • 模型篡改可见性​:记录模型的出处和更新历史可以提醒团队注意未经授权的更改,确保整个生命周期的完整性。
  • 防范提示词注入的护栏​:记录提示词的处理和过滤方式,有助于在 GenAI 系统中强制执行输入处理的约束,从而降低恶意提示词利用的风险。

AI BOM 的 5 个关键组成部分

被 AIBOM 的好处说服了,但不确定从哪里开始?以下是 AI 物料清单通常会包含的内容。请记住,它不仅仅是模型文件或数据集引用的列表。AIBOM 应涵盖 AI 模型开发、训练和部署的完整背景。

  1. 模型

包括模型架构(例如,Transformer、卷积神经网络)、其训练目标、版本信息以及训练期间使用的参数或权重。记录模型的出处(谁、何时以及如何创建模型)对于建立信任和可追溯性也至关重要。额外的好处?对于利用第三方或开源模型的团队,元数据还有助于验证来源的真实性和许可。

  1. 数据集

训练和验证数据集将包括有关数据来源、格式、标注实践和预处理步骤的信息。记录用于训练模型的数据集不仅支持可复现性,而且在解决数据质量和潜在偏见方面也起着核心作用。例如,记录一个语言模型是否主要在英语新闻文章上训练,可以揭示其输出中的地理或文化偏见。对于高风险或受监管的用例,数据集的透明度正日益成为合规和审计标准的一部分。

  1. 软件和框架

现代 AI 系统是使用复杂的机器学习库、框架和依赖项堆栈构建的,例如 TensorFlow、PyTorch、scikit-learn 或 Hugging Face Transformers。与传统的 SBOM 非常相似,您的 AI BOM 应列出所有相关的软件包、版本和许可证。这有助于安全团队识别已知漏洞、应用补丁并确保跨环境的一致性。

  1. 硬件和计算环境

由于用于训练和推理的硬件及运行时环境会影响 AI 模型的性能和可靠性,因此 AI BOM 应捕获有关计算基础设施的关键细节。考虑 GPU 类型、内存配置和操作系统,这将支持可复现性和故障排除。这对于对硬件级行为敏感或部署在不同环境中的模型尤其重要。例如,在内存充足的 GPU 上优化的模型,在计算能力有限的边缘设备上运行时可能会出现性能下降或数值不稳定的问题。

  1. 道德和使用文档

最后,负责任的 AI 实践需要的不仅仅是技术透明度。AI BOM 还应包括模型使用策略、预期应用、已知限制和道德考量的文档。这有助于与内部治理政策和负责任 AI 部署的外部标准保持一致。特别是对于生成式 AI,它可以帮助明确可接受的用途、审核策略以及防止滥用的保障措施。

如何创建 AI BOM

构建有效的 AI BOM 将是一个结构化、可重复的过程,它与您现有的 DevSecOps 工作流集成,并支持整个 AI 生命周期内的持续可见性。想要大规模实施 AI BOM 吗?这是您的工作流程:

  1. 定义范围和目标: 首先确定 AI BOM 将涵盖哪些模型、应用程序或环境,或者您旨在满足哪些法规。明确可见性、合规性或安全性的目标,以确保与组织的风险管理策略保持一致。
  2. 发现资产: 绘制出您环境中所有相关的 AI 资产。这包括训练好的模型、数据集、训练脚本、包管理器、API 以及第三方组件和依赖项。自动化发现工具有助于识别隐藏的依赖项并发现未受管理的资产。
  3. 提取元数据: 从每个资产中收集详细信息,包括模型参数、数据集来源、软件版本和计算配置。这些元数据构成了 AI BOM 的骨干,并实现了有效的跟踪、风险分析和审计。
  4. 组织清单: 将收集的数据构造成一个标准化的格式,使其易于搜索、筛选和分析。尽可能使此结构与现有的 SBOM 框架对齐,以促进一致性和集成。
  5. 与流水线集成: 将 AI BOM 的生成嵌入到您的 ML 开发流水线中。这确保了文档会随着每个模型版本自动更新。
  6. 应用治理: 定义有关 AI BOM 中需要包含哪些内容以及由谁负责维护的策略。治理应包括访问控制、审查工作流和版本管理。这将确保其他人可以追溯您 AI 模型的起源和演变。
  7. 验证和维护: 持续监控变化,并确保 AI BOM 随时间推移保持准确。定期验证有助于检测偏差、缺失元素或过时的组件。
  8. 融入安全运营 (SecOps): 使 AI BOM 成为您安全运营和部署流水线的一个功能部分。用它来支持漏洞管理、事件响应和合规报告,就像 SBOM 在安全软件供应链中的使用一样。

现在有多种工具和框架可以支持 AIBOM 的创建和管理。每种工具都提供不同类型的支持、自动化、标准化和集成。例如:

Mend.io

Mend.io 使开发团队能够充满信心地保护由 AI 驱动的应用程序,采用主动的方法来应对基于 AI 的风险,并提供专为 AI 系统构建的工具。您可以使用 Mend.io 映射您流水线中的每一个 AI 组件,自动检测您应用程序中的 AI 模型、代理、RAG 和 MCP,构建一个实时的、持续更新的 AI BOM。然后,您可以大规模实施策略,应用有关模型使用、许可和提示词安全的规则,包括自动化的强制执行和审批工作流。

SPDX 3.0

SPDX 3.0 是来自 Linux 基金会的一个开放规范,引入了对 AI 和 ML 组件的结构化支持。它定义了一种机器可读的格式,可以包括数据集、模型元数据、流水线和运行时环境的详细信息。SPDX 3.0 将 SBOM 的概念扩展到 AI 工件,允许组织使用与传统软件相同的严谨性和工具来管理 AI BOM。这支持了跨所有应用程序组件的一致的供应链安全策略。

OWASP AI BOM 倡议

OWASP AI BOM 项目 旨在规范 AI BOM 应包含的内容以及如何使用它来提高 AI 系统的信任和安全性。它提供了关于记录基本 AI 工件的社区指导,并与其他标准(如 SPDX)保持一致。该倡议为正在构建或评估 AI BOM 流程的组织提供开源资源,是您构建自己的 AI BOM 时的绝佳起点。

Wiz

Wiz 在其 AI 安全态势管理 (AI-SPM) 平台中提供了专门的 AI 物料清单功能。它能自动发现在云环境中的 AI 资产,如托管或管理的模型、数据集、API、框架和硬件。它将它们映射到一个安全清单中,监控配置错误或偏差,并通过其安全图谱揭示风险。然而,它对开发人员流水线的可见性有限,并且没有将重点放在整个软件供应链上。

Snyk

Snyk 正处于提供 AI BOM 生成的早期阶段,其 CLI 原型可以扫描代码库以查找对 AI 模型和数据集的引用,并作为其 AI 信任平台 的一部分生成一个基本的物料清单。这尚未与软件组件清单集成,并且治理框架和功能也处于早期开发阶段。

随着 AI 的采用加速,企业需要将透明度、治理和安全性牢记在心。

提高对您应用程序中 AI 组件的可见性和控制力