谷歌研究重新想象AutoML：宣布Vertex AI表格式工作流程今年早些时候，我们分享了我们与美亚保险的合作细节，美亚

今年早些时候，我们分享了我们与美亚保险的合作细节，美亚保险是一家为美国军人和退伍军人提供保险和金融服务的领先供应商，他们利用AutoML模型来加速索赔过程。相对于基线模型，美亚保险和谷歌云产生的自动化解决方案拥有28%的峰值改进，可以根据受损车辆的照片预测人工成本和汽车零件维修/更换的决定，有可能重新定义索赔的评估和处理方式。

这个用例结合了各种技术，这些技术远远超出了保险业的范围，其中有一种特别复杂的方法来处理表格数据，或将数据结构化为带有列和行的表格（例如，在USAA的情况下，车辆品牌/型号和损坏点）。将机器学习（ML）应用于表格数据可以为各类企业释放巨大的价值，但很少有工具既方便用户又适合企业规模的工作。在谷歌云应用ML峰会上宣布的顶点人工智能表格工作流程，旨在改变这种状况。

将谷歌人工智能研究应用于解决客户问题

谷歌在严格的人工智能（AI）和ML研究方面的投资，使得尖端技术不仅可以更广泛地使用，而且更容易使用，更快部署，更高效管理。我们的研究人员每年发表800多篇论文，产生了数百次的学术引用。谷歌云已经成功地将这项研究的成果转化为一些获奖的企业级产品和解决方案。

例如，神经架构搜索（NAS）首次在2016年11月的研究论文中被描述，后来成为顶点AI NAS，它让数据科学团队以更高的精度、更低的延迟和低功率要求来训练模型。同样，匹配引擎在2019年8月的一篇论文中首次描述，然后在2020年转化为开源的TensorFlow实现，称为ScaNN，然后在2021年转化为Vertex AI Matching Engine，帮助数据团队解决 "最近的邻居搜索 "问题。最近其他基于研究的发布包括在顶点人工智能上运行 DeepMind革命性的蛋白质折叠系统 AlphaFold的能力。

在表格数据方面，对进化和 "学习到学习 "方法的研究导致了顶点人工智能中AutoML Tables和AutoML Forecast的诞生。数据科学家和分析师喜欢使用AutoML，因为它能够将ML固有的复杂性抽象为更简单的流程和界面，而不牺牲可扩展性或准确性。他们可以用较少的代码行来训练模型，利用先进的算法和工具，并通过一次点击来部署模型。许多知名的客户已经成功地从我们的AutoML产品中获益。

例如，Lowe's负责创新、数据和供应链技术的高级副总裁Amaresh Siva说："使用顶点AI预测，Lowe's已经能够创建准确的分层模型，在SKU和商店级预测之间取得平衡。这些模型考虑到了我们的商店级、SKU级和区域级库存、促销数据和其他多种信号，并产生了更准确的预测。"

根据Kaggle "2021年数据科学和机器学习状况 "报告，这些和其他许多成功案例帮助Vertex AI AutoML成为市场上领先的自动机器学习框架。

用顶点AI表格式工作流程扩展AutoML

虽然我们对我们的人工智能平台的采用感到兴奋，但我们也很清楚，人们要求在AutoML中对表格数据有更多的控制、灵活性和透明度。历史上，这些要求的唯一解决方案是使用Vertex AI定制训练。虽然它提供了必要的灵活性，但它也需要使用各种开源工具从头开始设计整个ML管道，这往往需要由专门的团队来维护。很明显，我们需要在AutoML和自定义训练之间提供 "中间 "的选择--一种强大的、利用谷歌的研究的、但又足够灵活的、允许许多定制的选择。

这就是为什么我们很高兴地宣布顶点AI表格工作流程--集成的、完全管理的、可扩展的管道，用于使用表格数据的端到端ML。这些包括AutoML产品和来自谷歌研究团队和开源项目的新算法。表格式工作流程完全由顶点人工智能团队管理，因此用户不需要担心更新、依赖性和冲突。它们很容易扩展到大型数据集，因此团队不需要随着工作负载的增长而重新设计基础设施。每个工作流程都与最佳硬件配置配对，以获得最佳性能。最后，每个工作流程都与顶点人工智能MLOps套件的其他部分深度集成，如顶点管道和实验跟踪，使团队能够在更短的时间内运行更多的实验。

AutoML表工作流程现在可以在Vertex AI管道上使用，带来了许多强大的改进，如支持1TB数据集与1000列，以及控制搜索算法评估的模型架构和改变管道中使用的硬件以提高训练时间。最重要的是，每个AutoML组件都可以在一个强大的管道图形界面中进行检查，让客户看到转换后的数据表、评估的模型架构和更多的细节。

每个组件现在也得到了扩展的灵活性和透明度，例如能够定制参数、硬件、查看过程状态、日志等。客户从一个对整个管道进行控制的世界进入到一个对管道中每一步进行控制的世界。

谷歌在表格数据ML研究方面的投资也导致了多种新型架构的产生，如TabNet、时间融合变形器和Wide & Deep。这些模型得到了研究界的好评，导致了数百次的学术引用。我们很高兴在Tabular工作流程中为TabNet和Wide & Deep提供全面管理和优化的管道。我们的客户可以体验这些模型的独特功能，如内置的可解释性工具，而不必担心实施细节或选择合适的硬件。

增加了新的工作流程，以帮助改善和扩展特征工程工作。例如，我们的特征选择工作流程可以在有超过10,000列的数据集中快速排列出最重要的特征。客户可以用它来探索他们的数据，或者将它与TabNet或AutoML管道结合起来，以实现对非常大的数据集的训练。我们希望看到更多客户一起使用多个Tabular工作流程的有趣故事。

Vertex AI Tabular Workflows将所有这些合作和研究提供给我们的客户，作为一个企业级的解决方案，以帮助加速生产中的ML部署。它将AutoML的简易性与解释工作流程中的每一步的能力打包，并选择由AutoML处理的内容与自定义工程。管理的AutoML管道是玻璃盒子，让数据科学家和工程师看到并解释模型构建和部署过程中的每一步，包括灵活调整模型参数的能力，更容易完善和审核模型。

顶点AI表格式工作流程的元素也可以集成到现有的顶点AI管道中。我们已经添加了新的管理算法，包括先进的研究模型，如TabNet，特征选择的新算法，模型提炼等。未来值得注意的组件将包括谷歌高级模型的实施，如时空融合变形器，以及流行的开源模型，如XGBoost。

今天的研究项目是明天的企业ML催化剂

我们期待着看到Tabular工作流能改善多个行业和领域的ML运作。营销预算分配可以得到改善，因为特征排名可以从大量的内部数据集中找出表现良好的特征。这些新功能可以提高用户流失预测模型和活动归属的准确性。风险和欺诈业务可以从TabNet这样的模型中受益，其中内置的可解释功能可以在满足监管要求的同时提高模型的准确性。在制造业中，能够在数百亿字节的完整、未采样的传感器数据上训练模型，可以显著提高设备故障预测的准确性。一个更好的预防性维护计划意味着更有成本效益的护理，减少故障。几乎每个企业都有一个表格数据用例，我们很高兴看到我们的客户取得了什么成就。

正如我们的人工智能和ML产品开发和新产品发布的历史所示，我们致力于研究合作，帮助我们将谷歌和Alphabet的最佳人工智能技术产品化，用于企业规模的任务和工作流程。我们期待着继续这一旅程，并邀请您查看我们应用ML峰会的主题演讲，以了解更多信息。