什么是ModelOps?
管理生产中的模型是一项挑战。为了优化人工智能的价值,人工智能模型必须提高业务应用的效率,或者在生产中运行时支持做出更好的决策。ModelOps是在整个组织内扩展和管理企业人工智能计划的关键能力,并确保从这种企业人工智能计划中获得最大价值。
这篇文章将谈论为支持这种ModelOps能力而应该建立的系统要求。我们将从实际案例中举出例子,这些案例使用先进的生产企业系统来协调和自动化模型的整个生命周期,以实现可扩展的ModelOps的运作。
在这些简短的行文中,不可能涵盖所有与ModelOps能力相关的挑战和细节。然而,在文章的最后,我们将尝试给你提供正确的参考,这将有助于你加深和学习更多关于ModelOps的内容。
一些组织谈到了ModelOps,他们是如何实施它的,以及ModelOps对于大企业来说应该是什么。一个很好的例子来自Gartner,它在2020年8月发表的一篇论文--ModelOps的创新见解--他们宣布 "ModelOps是任何组织的企业AI战略的中心"。
还有许多来自Gartner和Forester的出版物,仅举几例,以及围绕ModelOps不断增长的社区,供那些希望了解更多的人使用。然而,本文的主要重点是强调开始ModelOps之旅的基本要素。
所以,让我们从关于ModelOps的主要问题开始,也就是为什么是ModelOps?什么是价值,什么是促使大型组织开始认真投资于 ModelOps 能力的痛苦?

图1 - 为什么是ModelOps? - 图片来源,经作者授权编辑
我们在这里列举了一些,在图1的右边,从我们的角度来看,我们认为这些问题可能是按以下顺序排列的。
- 控制风险:越来越多的业务举措和中央决策是以来自AI算法和ML模型的模型为指导的,这确实对现有的治理和风险结构产生了影响。
- 缩短模型到业务的时间:将较新的建模技术逐步过渡到现有的结构中,促使一个大型组织了解并更好地利用ModelOps的能力,另一方面,有一个不懈的需求,即尽快将这些模型引入业务。因此,在开发这些模型时,需要付出时间和精力,这些模型有时会有一个不可预测的保质期,比如对特定业务制度的适用性。因此,将这些模型快速引入业务,变成了ModelOps核心功能的驱动力。
- 增加透明度:增加透明度和问责制,以便能够在任何时候知道你的模型在哪里。
- 释放人工智能投资的价值:显然,所有这些都导致释放企业人工智能计划的价值,不仅是现在,而且随着时间的推移,这种计划的数量将不可避免地增加。
如果我们看一下过去的30个月,我们看到人工智能举措的大量增加。在指数级变化速度的驱动下,组织和初创公司正在努力采用ModelOps,目的是捍卫和扩大他们的市场机会。
传统模式与AI/ML模式
在这种情况下,今天的大多数组织都在积极行动,采用更敏捷、更高效的AI和机器学习应用交付,当然还有IT管理实践,以满足客户不断变化的期望。
如图2所示,在左边我们有(灰色的六边形)典型的企业范围内的资产事物的表示,如企业范围内的工具、企业范围内的硬件机器、企业设施、企业范围内的软件和流程,以及一类专门的传统模型的类型学,这影响到企业的监管和治理结构。在金融服务领域,这些通常是在模型风险管理系统或MRM中注册的模型。所以传统上在传统模型中,从业务和领域的专业知识中得出的统计模型,往往更多的是在业务单元的背景下,而不是在企业背景下,真正专注于推动特定业务单元的表现。

图2 - 传统模型与AI/ML模型 - 图片来源,经作者授权编辑
传统模型和AI/ML模型之间有什么不同?AI / ML模型是像传统模型一样的决策模型。这些模型实际上是来自于起步阶段的需求,因为它们来自于专有数据,通常与一个商业问题相关。它们是非常复杂的模型
- 因为它们在AI/ML的背景下使用了一种算法方法。
- 在与公司流程审批的治理结构的关系方面。
此外,除了完全适合决策框架外,它们还在技术层面上有影响,它们往往涉及公司的技术结构。由于它们的技术复杂性,可能需要经过DevOps、企业安全、IT运营等流程,驻留在云服务上,或者由于其他原因在内部基础设施上。
因此,在人工智能和机器学习的世界里,这些模型是一种企业资产,远远超过传统模型。它们为业务部门提供了支持,正如我们所看到的,除了非常复杂和有更快的嗯生命周期之外,还可以有非常不可预测的保质期。出于这个原因,有必要非常迅速地刷新这些模型,记住它们也可能有不同的刷新频率。
因此,所有这些导致了企业人工智能和ML模型在管理上具有独特的挑战性,如果一个公司或组织希望将这些模型的治理、监控和协调内部化,他们必须考虑到这些代表了一类新的企业范围内的资产,这将真正为他们提供一个基础,以向前迈进,最终理解ModelOps作为一种能力的原因和方式。
所有这些模型都有自己的生命周期,在时间上与公司层面现有的各种业务流程和各种技术流程相关。
图 3 给出了一个生命周期的大致概念。在紫色区域,是模型工厂,从数据科学的角度来看,所有的东西都是为了创建模型而发生的。模型不是传统的软件,由于它们的独特性,它们与企业模式的关系并不一样,但是模型的生命周期肯定适合整个企业的模式。

图3 - 模型生命周期 - 图片来源,经作者授权编辑
正如你从这个例子中所看到的,很多时候,打包部署和执行是由模型工厂本身提供的。也可以把它包装成一个docker容器并发布,或者ModelOps平台可以自己提供这种能力,所以在每个模型的基础上,确切地说是生命周期中的包装部署和执行的细节。
ModelOps是关于理解模型的整体生命周期以及它们与业务和技术的整合,以便在企业中长期提供价值。
在这个插图的绿色部分,我们可以欣赏到一个典型的操作周期。这里提供了推断监控,概念漂移的监控,像统计性能或数据漂移,模型的持续监控以及右下角监管合规审计的治理结构。如果模型有任何变化,比如在再培训或冠军挑战者,这可能是非常复杂的自动自动再培训过程,这可能会启动一个新的监管或合规或问责过程。
想象一下,一个拥有数百或数千个模型的企业,必须能够准确地知道每个模型在其生命周期中的位置,这是非常复杂的,并成为一个真正的挑战,以扩大规模。如果做得不好,它会影响到治理和提供问责制和可审计性的能力,例如在每个模型的基础上的道德公平性和偏见。
模型是资产,它们是复杂的资产,与传统的资产不同,它们需要生命周期,这些生命周期也是复杂的,必须自动化扩展,与现有的商业和技术流程有复杂的关系。

图4 - 整个企业的MLC - 图片来源,经作者授权编辑
除此之外,现在需要注意的是,由于模型的那种独特性,它不像软件,因为它不像软件那样商品化。企业不知道他们可以有很多小的数据模型还是很多大的数据模型,模型的生命周期就像任何企业架构的考虑一样,倾向于借由企业范围的模型。我们认为生命周期是一个企业范围内的关注点,这就决定了企业AI架构的作用。在图4中,我们有一些生命周期的例子,如欺诈检测的生命周期(我们之前稍微深入地介绍了一下),其他的用例是反洗钱和一些金融服务。然而,所有这些生命周期都需要被管理和设计,它们是真正的架构资产。
AI协调平台
企业需要能够在这些资产的整个生命周期中持续治理、自动化和监控这些资产,而这正是ModelOps中心这样的现代生产型ModelOps系统所做的。
这种系统为企业提供了一种集中、一致和有效管理其所有AI/ML模型的方法。该解决方案使团队能够优化整个模型运营生命周期,从初始部署到退休。
在本博客的范围内,我们测试了ModelOp中心的功能。该平台使团队能够自动化和协调模型监控和治理。该解决方案提供了团队所需的所有关键能力,以建立可靠、合规和可扩展的人工智能计划。有了这些能力,团队可以最大化他们的模型的价值,提高运营和成本效率,并控制风险。

图5 - 现代生产型ModelOps系统的关键能力 - 图片来源,经作者许可编辑
- 该解决方案使团队能够。
- 定义、细化、标准化和自动化模型操作的每个步骤。
- 使用预先定义的流程进行注册、操作、风险管理和监控。
- 为所有模型设计一致的、优化的、端到端的操作流程,同时根据收集的元数据进行灵活的定制。
2.团队可以建立对模型合规性的持续验证。因此,我们可以一致地、权威地确保监管任务、业务政策和风险控制的持续执行。
3.监测器涵盖一系列领域,包括数据漂移、概念漂移、道德公平性、可解释性和群体评分、特征稳定性等等。
4.预包装的集成包括。
- AI模型工厂。
- 模型框架。
- 模型工作台。
- 共享的IT系统。
- 基于云的ML服务。
- BI可视化工具
5.该解决方案允许以统一的方式跟踪和管理所有模型,它提供了复杂的可视性,简化了跟踪、治理和报告工作。
无论我们支持哪种类型的业务,通过采用正确的现代生产ModelOps系统,我们将能够在企业层面提供自动化和治理,并确保企业层面的所有问题都能轻松解决,关于每个企业的人工智能倡议,目前。 企业人工智能正在成为大型组织中大多数决策的一种战略方向。
ModelOp中心是一个系统的例子,它支持在管理人工智能和ML模型方面的基本挑战,以及能够在规模上自动化非常复杂的生命周期,其中包括业务和技术挑战,并为组织提供了解所有模型所在的能力。

图6 - ModelOp中心回答的问题 - 图片来源,经作者授权编辑
成功的模型操作的4个步骤
几十年来,组织一直在使用模型来帮助商业决策。然而,人工智能和机器学习模型为模型操作化(开发后)引入了新的风险。许多模型运营过程是手工操作或使用自制的解决方案进行管理,随着新技术、工具和治理要求的引入,需要不断地更新。
因此,超过一半的开发的模型没有被部署,而那些花了几个月时间来操作的模型,往往导致次优的结果和延迟或减少的价值。
这里有4个步骤,任何组织都可以采取,以成功运作AI/ML或任何其他类型的模型。
1. 定义端到端的模型操作过程(被称为模型的生命周期
- 准备生产使用的模型的第一步是建立端到端的模型操作流程,被称为模型生命周期(MLC)。
- 企业人工智能架构师通常负责设计模型生命周期。
2. 部署模型
- 部署是指将模型集成到现有的生产环境中,以便根据数据做出实际的商业决策的方法。
- 通常情况下,数据科学家负责部署模型。
3. 监控生产中的模型
- 监测从模型首次在生产系统中实施用于实际业务时开始,一直持续到模型退役,有时甚至超过历史档案。
- 一个模型操作员通常负责监控生产中的模型的健康状况。
4. 管理模型操作
- 模型是智力资本的一种形式,应该作为企业资产进行管理。应该使用工具和技术对它们进行清查和评估,使审计和报告尽可能有效。
总结
自动化和协调模型生命周期的所有方面,确保可靠的模型操作和规模化的治理。企业中的每个模型都可以采取各种各样的生产路径,有不同的监控模式和各种持续改进或退休的要求。
企业需要开始思考ModelOps是一种基本能力,它可以真正导致企业追求卓越的水平,并确保投资有保证和即时的投资回报。这是不能再拖延的事情了。
参考文献
用ModelOps管理AI计划》最初发表于Towards Data Science上,人们在Medium上通过强调和回应这个故事继续对话。