人工智能为机器学习创造合成数据
以色列的人工智能研究人员在寻找COVID-19的治疗方法时,需要研究成千上万的大流行病早期患者的记录。通常情况下,为这项研究获得这些病人的许可以获取他们的保密数据的过程需要几周或几个月的时间,但研究人员几乎能够立即获取数据。原因是什么?他们收到的数据是合成数据:一家名为MDClone的以色列公司将原始记录重新组合成一个新的、具有统计学意义的数据集,研究人员可以使用这些数据而不用担心违反病人的隐私。
采用机器学习的人工智能系统制定了关于世界的规则和推论,然后指导关于新信息的决策。机器学习依赖于获得足够数量的关于应用领域的数据来训练系统,使其能够建立一套强大的规则和推论。系统从一个特定的决定或情况的例子中获得的数据越多,系统可以建立的模型就越好,以提供智能和有用的洞察力。然而,在获取系统所需的数据方面可能存在问题。
进入合成数据。合成数据指的是包含模仿真实世界数据的记录的数据集,但不是真实世界的实际记录。任何寻求将人工智能、机器学习和深度学习应用于其业务的组织都需要意识到合成数据的重要性。
什么是合成数据?
合成数据有两个来源:
- 真实世界的数据。真实世界的数据可以剥离个人身份信息(PII)和个人健康信息(PHI),但这并不足以完全保障隐私,因为数据记录仍然可以与其他可识别来源进行比较。正如在COVID-19的例子中,匿名数据必须以保留数据集的所有统计属性的方式重新组合,以便机器学习算法可以得出有效的推论并创建有效的规则。
- 模拟的数据。在某些情况下,机器学习的障碍是真实世界的数据供应不足。有时,收集真实世界的数据会花费太多,或者花费太长的时间而不实用。在这些情况下,模拟可以提供足够接近真实世界例子的数据,使机器学习算法能够正确地学习。例如,自动驾驶汽车行业使用来自道路上运行的车辆的真实世界传感器数据和来自驾驶模拟(甚至像《侠盗猎车手》这样的视频游戏)的模拟数据的组合。
- 隐私、保密和其他数据使用限制,如美国的HIPAA健康隐私法规或欧盟的GDPR消费者隐私保护。
- 由于收集数据的成本或困难,真实世界的数据不足。
- 未曾遇到过的条件,如从未被观察到的现象(如火山爆发),从未到达过的地方(例如,另一个星球的表面),或只是尚未使用过的系统的运行条件。
- 对真实世界数据中的统计异常或偏差进行修正,如真实世界数据中存在罕见的异常值,需要人为地使其更加常见,以便系统有足够的例子来训练。
合成数据用于何处?
合成数据支持许多不同的应用。 其中一些是:
- 用于DevOps的自动化软件测试。软件开发一直需要测试数据,但今天,DevOps的短暂敏捷开发周期比以往任何时候都需要更多的测试数据。
- 自动驾驶汽车的开发。在真实道路上操作传感器汽车是一个昂贵而缓慢的过程,而综合来自驾驶模拟的数据为训练自动驾驶的人工智能提供了更大的数据集。
- 制造业自动化和机器人技术。与汽车数据收集一样,在机器人和制造业应用中收集真实世界的数据可能是缓慢和昂贵的,因此合成数据可以使这些应用中的人工智能系统的训练更有效率。
- 金融服务。像医疗保健数据一样,个人金融数据受到严格的保密控制,而合成数据使开发人员和企业用户能够在不侵犯隐私的情况下访问更大的数据集。
- 涉及消费者行为的营销模拟。消费者的实际在线行为受到GDPR和其他限制,因此合成数据集能够对营销人工智能进行更广泛和更深入的训练。
- 临床健康研究。PHI受到高度监管,所以合成数据使人工智能和机器学习成为可能,否则数据集可能会受到太多限制而无法发挥作用。
- 面部识别。使用真实人物的照片来训练面部识别会违反隐私限制,并可能导致代表性不足的脸部类型产生偏见,而合成面部数据可以解决这些问题。
- 社交媒体。社交媒体平台需要训练人工智能系统来检测仇恨言论和极端主义内容,因此他们需要不受隐私法规和关注的数据集。
合成数据有助于人工智能的发展
合成数据是人工智能和机器学习领域研究和发展的一个新兴领域。麻省理工学院最近推出了其合成数据库开源项目,努力为各种机器学习应用提供一站式的合成数据来源。虽然合成数据库是新的,但它建立在麻省理工学院自2013年以来一直在进行的研究之上。
合成数据领域的参与者数量也在增长。以下是该行业的十家公司:
- 用于零售的AiFi
- 用于机器视觉的AI.Reverie
- 用于自动驾驶汽车的Anyverse
- 用于机器视觉的Cvedia
- 用于室内环境的增强现实的DataGen
- 用于临床医疗数据的Diveplane
- Gretel创建了一个数据合成工具
- 用于金融欺诈检测的Hazy
- 用于银行、金融服务和保险业的Mostly AI
- 用于地理空间成像的OneView
合成数据不仅在该特定领域的公司创造机会,而且为人工智能、机器学习和深度学习的所有应用创造机会。对人工智能架构师、机器学习工程师、DevOps专家和相关技术专家的需求正在迅速增长。