
数据科学和机器学习现在被许多公司广泛使用;然而,在投资回报率方面仍有很大的改进空间。在2021年的VentureBeat分析中,87%的人工智能模型从未进入生产环境,麻省理工学院斯隆管理评论报告发现,70%的公司报告说人工智能项目的影响很小。然而,Gartner预测,2022年人工智能的投资将达到前所未有的625亿美元,比2021年增长 21.3%。
A.什么是数字双胞胎?在哪里实施?

与人工智能一词一样,数字双胞胎也有不同的含义,有许多不同的使用方式。我们把这个词定义为其他目的的谱系;在某些情况下,它可以是一组平行的数字数据应用程序/程序,或者是依靠前一个程序/应用程序的输入的数字数据应用程序序列。当我们追溯数字双胞胎的历史时,我们分析了基于代理的模拟的起源和发展,以及它们如何与机器学习(ML)和其他人工智能领域的进展相融合,形成模拟智能。我们介绍了来自交通、银行和医疗部门的几个数字双胞胎的例子。仿真模型也正被部署在整个企业中,并与其他软件和人工智能模型共存。
实施。价格预测器+峰值检测可以作为数字双胞胎应用的堆栈进行整合,为商业用例找到最佳价格预测。
B.什么是知识图谱?在哪里实施?

近年来,信息提取方面的进展使得大型知识图谱(KGs)的自动创建成为可能,如DBpedia、YAGO、Wikidata和Google知识图谱。从KGs中学习规则的过程对于KGs的完成、清理和策划至关重要。本教程概述了当前的规则归纳方法、最新进展、研究机会和公开挑战。
作为存储和建模数据的一种形式,图可以独特地捕捉数据关系。通过整合不同来源的数据并以元数据充实它,知识图谱记录了关于数据的集体知识。因此,公司可以在一个上下文层中检索和解释结构化和非结构化的数据,使他们能够快速工作。当我们研究一些例子时,我们会更清楚地看到这在实践中是什么样子。
实施。金融犯罪中的知识图谱可以帮助追踪一组不规则的活动或正在实施的路线,将资金从一个重要的实体转移到几个小实体。
C.什么是贝叶斯统计?在哪里实施?
这种统计推断方法(以英国数学家托马斯-贝叶斯的名字命名)使用人口参数的先验知识,结合样本的证据来指导统计推断过程。数字营销是贝叶斯早期采用者的一个主要例子。尽管许多行业都接受贝叶斯建模作为解决高级数据科学问题的工具,但市场营销面临独特的挑战,这种方法提供了优雅的解决方案。这些挑战包括质量数据的下降,这是由日益增长的在线隐私需求和即将到来的禁止在线跟踪的 "cookie之死 "驱动的。此外,随着越来越多的公司建立内部数据科学团队,对内部解决方案的需求也在增加。
实施。根据从客户购买行为或调查中收集的信息对客户样本进行分类,并生成一套针对每个集群/群体(人口)的方案。
D.什么是数据分布或偏度?在哪里实施?

ML模型受制于不断的变化和非平稳的性质,这意味着即使是最先进的模型也会随着现实世界的变化而最终变得陈旧。对于任何ML/数据从业者来说,数据分布的转变是最重要的后期关注点之一。企业越来越依赖机器学习来提高实验室外的性能,以达到预期的效果。因此,机器学习操作中对高效调试和故障排除工具的需求持续上升。
如果没有解决方案,分布式转变问题会随着时间的推移导致显著的性能下降,甚至使模型无法使用。
实施。创建一个评估系统来识别训练集与测试集的分布。像平均数、中位数、模式和方差这样的简单措施可以帮助分析分布是否发生了变化。或者更糟的是,在测试集中是否存在任何异常或异常值。
E.什么是模型的可解释性?
随着自动化决策解决方案越来越适用于日常生活的各个方面,为各种利益相关者(如决策者、决策接受者、审计师、监管者)产生有意义的解释变得越来越重要。
设计解释的概念是一种新的方法论,其特点是在设计阶段采取积极主动的措施来包括解释,而不是采取试图改造解释功能的被动措施。
实施。在解释结果时,纳入解释特征、相关性、多重共线性和特征重要性的简单可视化(使用互换重要性、部分图和shap值)可以大大有利于解释结果。
F.负责任的人工智能仍然是关键
可解释人工智能,或称XAI的研究正在迅速扩大,旨在提供理解模型预测的方法。我们的目标将是对可解释性进行总体概述,介绍Alibi库,并展示它如何协助你理解训练有素的模型。除了研究Alibi的算法集合和它们提供的洞察力类型外,我们还将讨论每个算法的优点和缺点以及广泛的数据集和模型。特别是,我们将研究适用于任何模型的方法。重点将是应用于真实世界的数据集,以证明XAI可以证明、探索和增强从业者对机器学习的使用。
如果你喜欢这篇文章,请关注我,了解更多相关内容。另外,欢迎在LinkedIn上与我联系,让我们成为参与网络的一部分。
提升机器学习结果的六种技术》最初发表于Dev Geniuson Medium,人们通过强调和回应这个故事来继续对话。