商业机器学习工具包为数字业务提供动力
商业人工智能要求在规定性分析和操作机器学习模型之间找到一个交叉点。
简介
根据Zion市场研究,全球机器学习(ML)市场在2017年的价值约为15.8亿美元,预计在2024年将达到约208.3亿美元。利用机器学习(ML)和人工智能(AI)的新兴能力的认知技术的应用,正在被各种规模的公司所适应。基于云的GPU和TPU的可用性、开源库、谷歌和Facebook等企业的投资以及Kaggle等大规模数据集的可用性,使机器学习的应用对每个产品开发来说都触手可及。
Gartner的CIO调查发现,在过去的四年里,人工智能的实施大幅增长了270%。调查数据显示,随着机器人流程自动化(RPA)的兴起,工作流程正在被机器学习算法增强,以削减成本和提高客户满意度。由于技术对运营需求的日益渗透和商业影响价值的上升,企业适应ML启用的应用程序的势头越来越好。机器学习预测的数据丰富性也是数字业务抓住机会获得实时决策的主要动力。机器学习的独特之处在于对领域的全面、超脱的看法,并自动识别隐藏的模式。人工智能的采用正在加速,预计到2024年,75%的企业将转向人工智能驱动的企业。因此,一个新的趋势是**"机器(深度)学习为实时业务流程提供动力"。
商业ML工具箱
对于机器学习模型的商业成功,重要的是了解商业应用需要最高程度的功能和可靠性。与渐进式改进的统计指标相比,成功指标大多是二进制的。这就要求对ML模型的功能有高度的可解释性和透明度。这个工具包解释了分析和操作框架,以满足这些需求。
预测性分析
传统上,公司根据历史数据执行商业计划。例如,一个商店经理会根据前一年的数据和商店经理的经验来决定 "产品促销"。随着实时信息的增加和成熟的机器学习算法的出现,公司正在通过使用历史和实时趋势的预测性分析来做出积极的决策。然而,机器学习也为实时企业提供了超越预测分析的优势,这就是**"规定性分析"**,该市场预计到2022年将达到约18.8亿美元。
更多面向消费者的企业正在尝试适应透视分析,因为它为可能的预测结果提供了可操作的建议。更大的优势是,它还可以在给定的约束条件下实时进行**"如果 "分析** 。更少的例子包括:a)对于LMS系统来说,如果一个员工正在努力完成一门课程,可以推荐额外的课程来学习先决技能;b)引导式销售,通过为正确的买家提供正确的内容;c)通过基于日常销售的实时优化,更好地管理商店库存。
印度IT巨头Infosys的一份题为《 企业中的人力放大》的调查报告发现,98%的受访者表示,通过执行人工智能任务,他们的组织有15%的额外收入。其中,最大的影响来自于机器学习,因为它通过提供 "考虑业务/运营限制的建议",协助做出更明智的决定。
运营框架
在这种 "利用机器学习为企业做出实时决策 "的范式转变之后,人工智能和ML已经成为一个工程问题,而不是一个研究挑战。可靠性、可扩展性和管理复杂系统是实时执行ML模型的重点领域。问题是 "如何让机器学习项目适应解决市场需求,而不仅仅是无休止迭代的研究实验?"。专家认为,增加商业人工智能和ML的实时使用将有助于加速模型在生产中的部署[Gartner]。
由于实时决策或建议是由计算机提供的,关键的挑战是要确保合规性、透明度和道德性。 因此,"商业人工智能要求在规定性分析和机器学习模型之间建立规定性模型,以帮助企业做出实时决策"。这里是解释不同技术和工具的操作框架,以解决这些挑战。
可解释的人工智能
"可解释的人工智能"(XAI)是实现人类与科学合作,使 "人类成为战略的中心 "的一个步骤,以建立面向消费者的产品的实时预测性分析。这是一套工具和框架,有助于可解释性和可解释性,这对于实现没有偏见的公平、可问责和透明(FAT) 的机器学习至关重要。它有助于回答 "我应该相信这个预测吗?"
这个机器学习的新兴领域旨在解决ML模型 是如何做出 黑箱决定的**。**一些较简单形式的ML模型,如决策树、贝叶斯分类器、逻辑回归,已经得到了一定的可解释性。最近的研究发展表明,在深度学习领域将可解释性引入更复杂的机器学习算法方面取得了进展。像DARPA这样的研究实验室正在围绕为神经网络建立可解释的界面进行广泛的研究,以产生更多可解释的模型,同时保持高水平的学习性能。
在过去的几年里,人工智能研究人员一直在开发What-if、DeepLIFT、AIX360、激活图集、Rulex、可解释人工智能、 Alibi等工具,以及Attention、LIME、SHAP等方法,使从业者能够轻松评估使用中的决策规则的质量,减少误报。这些工具也促进了可解释人工智能的规模化应用。
ML的科学 "敏捷性"
企业衡量的一个新指标是**"在生产中部署第一个模型的时间"**。最近的一项调查显示,18%的公司需要超过90天的时间,其中一些还需要一年的时间才能投入生产。它还强调,25%的ML工程师的时间是用于将模型投入生产。延长周期的关键原因之一是,ML是一个研究密集型环境,它不是确定性的。另一个层面是,对于研究项目来说,未能证明可行性,也是一个可能的结果。这意味着,很多时候你会以未交付的功能而告终。
需要制定一个适应性战略/流程 来管理任何机器学习项目。这个策略应该为大量的调查、探索、分析和调整提供更大的机会,以一种持续的方式。
快速迭代项目开发_[图自Doug DeCarlo的《极端项目管理》一书[3]_][图片由作者提供]
机器学习的数据驱动、开放式性质要求更快的反馈循环,这自然使敏捷成为机器学习项目的事实过程。我们需要的是机器学习的**"敏捷新端口"**。
敏捷原则的这个移植版本,将从以下几个方面获得特点:a)将这种"科学方法 "整合为一个持续的迭代过程;b)通过"数据分析金字塔 "来管理数据,它表达了商业价值;c)基于"PERT "的项目管理。
根据Dresner的报告,70%的研发部门最有可能将人工智能和机器学习用于其所有的企业功能。这种向基于价值的合同转变的增加将推动人工智能和机器学习平台保持响应和适应性,这也是敏捷的基本原则。
ML协调的3个M
由于ML的商业使用有激增的趋势,公司将寻求更好地管理、监测和维护生产中的模型,以确保对所部署的AI集成的信任。随着对合规性、数据安全和偏见的审查越来越严格,信任和透明度将变得更加重要。需要关注的三个 "M " 是。
MLOps的重点是将人工智能操作化,使技术/科学可获得、适用、可重复和自动化。MLOps还建议建立一个 "跨职能团队",将工程师和研究人员嵌入到同一个团队中。它也仍然是评估和启用ML风险和ML健康的基本平台。企业需要专注于构建MLOps/CD4ML框架,其中包括功能存储、模型版本、元数据存储、模型服务和端到端部署管道。Kubeflow、FEAST、ONNX、Seldon Core等开源工具和5级成熟度模型帮助企业了解其当前状态并向上攀升,从而将MLOps视为其有形商业价值的驱动力。
ML健康是功能监控,用于向业务发起人传达商业模式的表现。这很关键,因为它展示了预测模型的性能以及对产品/业务的影响。这是通过不断的指标评估来实现的,如准确度、精确度、召回率,以确保它们在预期范围内运行。需要一个成功的沟通策略,如模型性能下降或增加的实时通知平台。对于生产中的大规模模型部署,建立一个监控仪表盘,使用可视化工具,如Tableau和Qlik,也是很受欢迎的。
ML风险并没有随着模型的开发而结束。模型漂移 是预期的行为,当一个ML模型被整合为实际应用的一部分。当检测到它所训练的变量发生变化时,模型的准确性会下降。a)目标变量**(概念漂移)b)输入数据(数据漂移)** c)操作变化 **(特征漂移)**的统计属性可以触发模型漂移的发生。
检测实时模型漂移的理想方法是实施任何技术,如数据偏差检测,金丝雀管道,漂移检测,生产A/B测试,多臂匪徒测试(多变量|优化) 作为ML工作流程的一部分。另一个有用的方法是,在检测模式下部署模型,而不是在(干预模式)下部署,这样就有助于证明漂移。像Alibi Detect这样的监控和治理工具,以及像fiddler、truera这样的商业工具都被引用为这个领域的新兴领导者。
作为机器学习应用消费化的副产品,全面的生产治理机制和问责制是至关重要的,以确保遵守ML的合规要求,如GDPR、算法问责法案、FDA等。人们期望机器学习工作流程中的所有阶段都能被追踪,以实现可重复性、可审计性和协助解释性。
总结
这些专注于为机器学习模型带来可解释性和透明度的进展正在推动ML模型的变革,以实时为数字业务提供动力。随着预测性分析中的随机优化,许多商业应用案例,如在线推荐、智能营销活动、信用贷款决策、欺诈检测都在为人工智能的数字应用铺平道路。广泛的研究仍在继续,以便为更复杂的关键任务案例带来可解释性,如医疗诊断、自动驾驶汽车,这些案例需要很大程度的透明度和可解释性。
我们还了解到,迭代和跨职能的沟通原则仍然比以往任何时候都重要。围绕可解释性、公平性和隐私的问题需要通过可持续的机器学习模型管理和治理结构来解决。与模型性能相比,机器学习模型的有用性将以业务指标来衡量。
有了这些机器学习的归纳性质,很明显,人工智能商业化的时代正走在跨越"VoID "的道路上。