用顶点人工智能加速生产中的ML部署

236 阅读8分钟

作为今天谷歌云应用ML峰会的一部分,我们宣布了各种产品功能和技术合作关系,以帮助您在生产中更快、更有效地构建、部署、管理和维护机器学习(ML)模型。

我们的性能测试发现,2021年通过顶点人工智能和BigQuery生成的ML预测数量增加了2.5倍,仅在过去六个月中,顶点人工智能工作台的活跃客户增加了25倍。客户已经明确表示,管理和集成的ML平台对于加速生产中的ML部署至关重要。例如,Wayfair使用Vertex AI将大型模型训练工作的速度提高了5-10倍,使实验增加,编码减少,更多的模型进入生产。同样,希捷公司使用AutoML建立了一个精度为98%的ML模型,而他们早期的定制模型只有70-80%。

福特公司人工智能和云计算总监Bryan Goodman说:"顶点人工智能是福特机器学习开发平台的一个组成部分,包括加速我们为非软件专家扩展人工智能的努力。"

这种势头是巨大的,但我们知道还有更多的工作要做,以帮助全球企业利用人工智能快速实现运营的数字化。

根据Gartner*的数据,"只有10%的企业有50%或更多的软件工程师接受过机器学习技能的培训"。[来源:GartnerGartner。调查分析。人工智能的采用跨越了软件工程和组织的界限 - Van Baker, Benoit Lheureux - 2021年11月25日]同样,Gartner指出,"平均而言,53%的[ML]项目能够投入生产"。[来源Gartner。实现项目成功的4个机器学习最佳实践- Afraz Jaffri, Carlie Idoine, Erick Brethenoux - 2021年12月7日】。]

这些发现说明了一个主要的挑战,即不仅要获得ML技能或抽象技术依赖性,以便更多的人可以参与到ML部署的过程中,而且要应用这些技能在生产中部署模型,持续监测,并推动业务影响。

让我们来看看我们的公告将如何帮助你消除大规模部署有用和可预测的ML的障碍。

加快生产中ML部署的四大支柱

我们今天宣布的功能符合我们与客户、合作伙伴和其他行业思想领袖讨论后制定的以下四部分框架。

提供选择的自由

当数据科学家能够自由选择ML框架、部署实例和计算处理器时,他们的工作才会最有效。为此,我们在今年早些时候与英伟达合作,推出了英伟达AI软件解决方案的一键部署到顶点AI工作台。英伟达的NGC目录让数据科学家在谷歌云上开始他们的模型开发,加快了构建和部署最先进的AI的路径。该功能将Jupyter笔记本的部署从12个以上的复杂步骤简化为一次点击,将常规任务抽象化,帮助数据科学团队专注于加速生产中的ML部署。

我们也相信这种选择权不应该有代价。考虑到这一点,我们很高兴地宣布推出顶点AI训练还原服务器,它同时支持Tensorflow和PyTorch。训练还原服务器是为了优化英伟达GPU上多节点分布式训练的带宽和延迟而建立的。这大大减少了大型语言工作负载(如BERT)所需的训练时间,并进一步实现了不同方法的成本均等。在许多关键任务的业务场景中,缩短的训练周期使数据科学家能够在部署窗口的限制下训练出具有更高预测性能的模型。

满足用户的需求

无论ML任务涉及预训练的API、AutoML,还是从头开始建立的自定义模型,技能熟练度都不应该成为参与企业范围内战略的门槛标准。这是让你的数据工程师、数据分析师、ML研究人员、MLOps工程师和数据科学家参与到整个组织的ML加速过程中的唯一途径。

为此,我们宣布预览Vertex AI Tabular Workflows,它包括一个玻璃盒和管理的AutoML管道,让你看到和解释模型构建和部署过程中的每一步。现在,你可以舒适地训练超过一兆字节的数据集,而不牺牲准确性,通过挑选和选择你希望AutoML处理的过程的哪些部分,以及你希望自己设计的部分。

表格式工作流程的元素也可以被整合到你现有的顶点人工智能管道中。我们已经添加了新的管理算法,包括先进的研究模型,如TabNet,用于特征选择的新算法,模型提炼等等。未来值得注意的组件将包括谷歌专有模型的实施,如时空融合变换器,以及XGboost和Wide & Deep等开源模型。

将数据和人工智能结合起来

为了快速将ML模型部署到生产中,你的组织需要一个统一的数据和AI战略。为了进一步将数据工程能力直接整合到数据科学环境中,我们宣布了解决所有数据类型的功能:结构化数据、图形数据和非结构化数据。

首先,对于结构化数据,我们宣布在顶点人工智能工作台上预览无服务器火花。这使得数据科学家可以在他们的笔记本中启动无服务器火花会话,并交互式地开发代码。

在图形数据领域,我们很高兴地介绍了与Neo4j的数据合作关系,它释放了基于图形的ML模型的力量,让数据科学家从Neo4j的连接数据中探索、分析和设计特征,然后用顶点AI部署模型,所有这些都在一个统一的平台上。有了Neo4j图形数据科学和顶点人工智能,数据科学家可以利用基于图形的输入从模型中提取更多的预测能力,并在诸如欺诈和异常检测、推荐引擎、客户360、物流等使用案例中更快地投入生产。

在非结构化数据领域,我们与Labelbox的合作是为了帮助数据科学家利用非结构化数据的力量,在Vertex AI上建立更有效的ML模型。Labelbox与Vertex AI的原生集成减少了标记非结构化图像、文本、音频和视频数据所需的时间,这有助于加快图像分类、物体检测、实体识别和其他各种任务的模型开发。由于该集成仅在谷歌云上可用,Labelbox和Vertex AI创造了一个加速模型开发的飞轮。

管理和维护ML模型

最后,我们的客户需要工具来轻松管理和维护ML模型。数据科学家不应该成为基础设施工程师或运营工程师,以保持模型的准确性、可解释性、可扩展性、抗灾性和安全性,所有这些都在一个不断变化的环境中。为了满足这一需求,我们宣布预览顶点AI基于实例的解释。这种新颖的可解释人工智能技术可以帮助数据科学家在他们的训练数据中识别错误标记的例子,或者发现要收集什么数据来提高模型的准确性。使用基于实例的解释来快速诊断和处理问题,数据科学家现在可以保持对模型质量的高标准。

福特和顶点人工智能

如前所述,我们已经看到我们的客户利用我们的AI和ML解决方案取得了巨大的成果。例如,福特汽车公司正在利用顶点人工智能在许多用例和用户类型中进行应用。

"我们正在使用顶点人工智能管道来建立通用和可重复使用的模块化机器学习工作流程。这些都是有用的,因为人们建立在其他人的工作上,并加速他们自己的工作,"古德曼解释说。"对于低代码和无代码的用户,AutoML模型对于转录语音和基本的物体检测是很有用的,我们喜欢有集成部署的训练模型。它真的可以帮助人们将东西投入使用,这很重要。对于强大的用户,我们正在广泛地利用顶点人工智能的定制模型部署,用于我们的内部模型。这对数据科学家和数据工程师来说是理想的,他们不必掌握基础设施和软件方面的技能。这对福特公司的人工智能建设者社区的发展至关重要,我们看到了非常好的成功。"

客户的故事和热情推动了我们的努力,继续创造更好的产品,使人工智能和ML更容易获得,更可持续,更强大。迄今为止,我们很高兴与你一起走过这段旅程,我们迫不及待地想看到你用我们的新公告做什么。

要了解更多信息,请查看我们的应用ML峰会上的其他专家评论,并访问我们的Google Cloud上的数据科学页面,了解Google Cloud如何帮助你快速在生产中部署ML。


*GARTNER是Gartner公司和/或其附属机构在美国和国际上的注册商标和服务,本文经许可使用。保留所有权利。