理解和接受人工智能中的合成数据

160 阅读8分钟

理解和接受人工智能中的合成数据

数据是发挥人工智能(AI)潜力的核心。然而,随着 AI 模型变得越来越复杂,获取、维护和保护训练这些模型以及在各种用例中测试系统所需的数据变得越来越困难和昂贵。在监管严格的行业和缺乏现代数据基础设施的公司中尤其如此。这就是合成数据发挥作用的地方。 

合成数据是人工生成的数据,具有与真实数据相同的属性,但不来自系统事件、用户操作或观察等真实来源。它还可以具有与真实数据不同的统计特性,以促进特定目标,例如减少偏差或实现独特的模拟场景。合成数据可以采用各种形式,例如图像而不仅仅是数据行。

合成数据在构建 AI 模型中的 3 个好处

  1. 合成数据可以减轻人工智能偏见。
  2. 它遵守法律和监管要求,使得在严格监管的行业中构建人工智能模型变得更加容易。
  3. 它扩大了人工智能团队的数据访问权限,缩小了真实数据的差距。

通过创建和使用合成数据,数据科学家和工程师可以训练更强大的模型,以支持业务分析,同时解决与现实世界数据相关的一些传统挑战。合成数据通过在非生产场景中模拟或编辑高度敏感的信息(例如个人健康数据)来降低隐私风险。此外,它还可以加快开发周期并帮助组织更有效地管理数据获取和维护的成本。 

合成数据在各行各业都有应用,例如:

  • 用于研究和开发的生物技术建模。
  • 金融服务建模以打击信用卡欺诈。
  • 用于电网现代化和优化的实用建模。
  • 医疗保健建模可以实现更好的患者护理、人口健康或支付完整性。
  • 制造运营技术建模以改善仓库运营或自动化库存管理,例如用于预测性维护或建模操作条件的传感器读数。 预计,到 2030 年,人工智能模型中合成数据的使用将超过真实数据的使用。这种趋势使得您越来越有可能遇到合成数据(如果您还没有遇到过的话)。了解如何以及在何处使用合成数据以及如何有效地创建合成数据,对于为您的企业或客户构建更好的人工智能模型至关重要。

推动合成数据使用的3 个场景

1. 减轻人工智能偏见

由于开发和训练人工智能模型所使用的数据和知识,它们经常面临偏见问题。南加州大学的一项研究表明,人工智能模型使用的事实中超过三分之一可能存在偏见,这可能导致误导性的人工智能幻觉。一个显著的例子是住房抵押贷款承保,其中使用的算法表现出种族偏见。在一项研究中,《住房抵押贷款披露法案》中的真实数据被用于创建实验性贷款申请,揭示了对黑人申请人的持续歧视,即使他们的财务状况与白人申请人完全相同。

在开发 AI 模型并进行分析时,意识到这些问题并采取措施消除潜在偏见至关重要。利用合成数据可以帮助解决偏见问题。继续以抵押贷款为例,您可以创建合成数据点来填补现有数据集中的空白或代表性不足的群体。通过生成平等代表不同群体、场景或条件的新数据集,您的模型可以从更具包容性的数据集中学习并减少偏见。 

认真对待合成数据集的测试和验证至关重要。人类的洞察力和专业知识对于质量和适当的数据治理至关重要。为了有效地克服偏见,要努力了解它在真实数据中存在的位置,调查其来源以及数据是如何转换的。这种积极主动的方法不仅可以提高模型的性能,还可以为您的应用程序带来更公平的结果。

2. 遵守法律和监管要求

如果您所处的行业监管严格,且数据和隐私保护要求严格,那么合成数据可能会改变游戏规则。在风险较高的领域,管理敏感数据会带来巨大的成本和风险。

医疗保健是面临构建和开发 AI 模型重大挑战的行业的一个很好的例子。共享个人医疗保健数据可能会导致严重的责任问题,但您需要这些数据来为患者护理场景创建有效的模型。复杂的建模通常需要协作和数据共享,无论是在岸和离岸团队之间移动数据还是与外部各方共享信息。最近的一个例子是公共卫生部门对 COVID-19 的响应,其中必须在医疗保健提供者、保险公司、公共卫生机构和制药公司之间共享数据。 

合成数据可以降低这些风险。它允许您使用一般患者属性测试模型可行性,同时保护个人健康信息 (PHI) 等识别信息。但是,您可能会发现在某些情况下,访问不包含 PHI 的数据对于有效建模至关重要。例如,如果您正在训练 AI 系统来检测脑癌,它需要真实的、高质量的大脑图像来描绘各种形式的癌症。在这种情况下,确保删除任何识别细节至关重要。否则,您可能会引入不准确数据,这些数据不能真正反映癌症的模式。

此外,除了数据隐私之外,还有一些考虑因素,例如偏见的可能性。在解决隐私问题时,务必谨慎填补任何数据空白,因为这可能会导致引入新的偏见。例如,您可能会无意中过度拟合模型,这些模型在某些方面更具包容性,但在其他方面却不能准确反映现实。这需要仔细考虑所涉及的权衡。

3. 弥补现实世界数据的差距

您是否曾经发现自己手头上根本没有必要数据?您并不孤单。随着建模变得越来越复杂,访问真实数据的挑战也越来越大,让我们许多人陷入困境。事实上,在最近对 AI/ML 社区的一项调查中,28% 的数据科学家将他们失败的 AI/ML 部署归咎于缺乏数据访问。这不仅仅是一个 AI 问题。良好的数据对于测试软件系统也至关重要,可以避免在非生产环境中暴露生产数据所带来的风险。合成数据也可以帮助降低这种风险。 

想象一下,您正在与一家公用事业公司合作,该公司正在自动化电网维护,并且需要分析变压器的特性和老化程度。虽然当前的计算机视觉模型可以识别汽车、公共汽车、停车标志和建筑物等基本项目,但它们很难识别电网中变压器的具体属性。 

您可能需要数百张变压器照片才能有效地训练您的 AI 模型,但这种级别的数据并不容易获得。合成数据创建者可以生成并标记照片以供训练。您可以从一组基本的变压器图像开始,这些图像包含基本属性,例如高压和低压套管的数量或损坏迹象,例如凹痕。从这个初始集合开始,您可以生成具有更广泛属性的其他图像,从而增加可用于训练或模拟当前图像集中不存在的属性的数据。 

创建和使用合成数据的关键注意事项

从现有数据集创建合成数据比以往任何时候都容易,尤其是在生成式 AI 的帮助下。您可以使用传统程序(例如 Excel、Python)或专业平台(例如 Tonic.ai、Mostly AI 或 Gretel)生成合成数据。这些专用平台通常最容易使用,但可能需要更多投资和培训才能充分利用它们。

如果构建自己的合成数据过于困难或耗时,您也可以考虑从供应商处购买。通过实验,您将开始了解哪种方法或供应商解决方案最符合您团队的数据要求和工作流程偏好。

最后,将合成数据的生成和使用集成到整个开发工作流程中是有益的。这使您的团队能够自由地试验和迭代您的模型,而不受数据隐私问题或数据可用性的通常限制。 

请记住,在可预见的未来,人类必须保持了解情况。人工智能会产生幻觉,因此我们必须继续观察和验证其输出。但通过持续的努力和实验,它可以提高日常工作的效率。