4个常见的机器学习陷阱以及如何避免这些陷阱
作者:Lior Gavish
发表于2022年7月4 日|最后更新。2022年7月25日
目录
主要启示
大多数机器学习项目的失败可以追溯到缺乏业务一致性、培训不力、数据质量问题和部署的复杂性。你可以通过使用减轻风险的最佳做法来避免这些陷阱。
机器学习是当今技术领域最热门的话题之一,这是有原因的。
广告
它具有巨大的潜力,可以将知识工作者面临的一些最繁琐的任务自动化或半自动化--领先的科技公司已经开始实现这种潜力。
例如,机器学习可以帮助将以下任务的人工劳作减少50%或更多。
广告
- 合同审查。
- 人力资源服务管理。
- 转录会议记录。
- 财务预测。
随着机器学习的应用越来越广泛,我们正处于释放这种价值的前夕。Algorithmia的一项研究发现,在2021年,76%的企业将人工智能(AI)和机器学习(ML)置于其他IT计划之上。
然而,大多数机器学习计划都失败了。(还请阅读: 机器学习的承诺和陷阱.)
虽然有无数的原因导致ML试点从未起飞,但最紧迫的问题可以追溯到四个主要陷阱。
- 缺少业务一致性。
- 糟糕的机器学习培训实践。
- 数据质量问题。
- 部署的复杂性。
让我们逐一探讨这些问题,并为数据团队和组织提出一些解决方案,以避免这些问题。
广告
1.缺少业务调整
机器学习的原罪在于大多数项目是如何诞生的。
很多时候,一群数据科学家在构思机器学习项目时都会想:"这个数据很有趣;如果...... "岂不是很酷?
而正是这种思维方式将ML项目变成了科学实验。
这类项目中的模型仍有可能产生一些有价值的东西--但如果该项目没有解决一个紧迫而痛苦的需求,它就不会得到企业利益相关者的时间或关注。或者更糟的是,它可能成为更接近于区块链的东西:一个寻找问题的酷技术。 (还可以阅读。 区块链技术简介.)
机器学习项目应该从关注最紧迫的业务专业人员开始,然后评估需要哪些资源来解决这些问题--而不是从手头的干净数据开始,然后试图找到一个他们可以解决的问题。
在启动机器学习项目之前,要问的好问题包括:。
- 这个问题是否紧急?据谁说的?
- 为什么机器学习是这个问题的正确解决方案?
- 我们将如何定义成功?
2.糟糕的机器学习培训
假设你的项目有一个非常难的、有价值的商业问题在眼前。下一步是收集足够的干净数据来训练模型。
这就是数据科学家的悖论:为了消除别人的劳累,他们必须沉浸在其中。
根据Anaconda的数据,数据科学家在数据准备任务上花费了大约45%的时间,包括加载和清理数据。
有一个相当大的机会,在所有这些工作之后,可能只是没有足够的合适或有代表性的训练数据。而且,像任何其他人工任务一样,会引入人为错误的风险。 (还可以阅读。 自动化。数据科学和机器学习的未来?)
微调你的ML模型也是一种挑战。它可能是过拟合的,即学得太多,也可能是欠拟合的,即学得太少。
你问,一个机器学习模型怎么可能学得太好?
有一个著名的例子,一个模型被训练来区分哈士奇和狼。它在训练中非常准确,但在生产中却开始失败。问题出在哪里?所有狼的照片的背景都有雪,而哈士奇却没有。这是一个探测雪的模型,而不是一个探测狼的模型。
不幸的是,机器学习培训也许是一个你不希望得到100%分数的测试。
3.数据质量问题
无论是在训练中还是在部署中,如果数据不好,就不可能有一个有效的机器学习模型。就像他们说的,垃圾进,垃圾出。
挑战在于,机器学习模型对数据的渴望。他们总是想要更多的数据--只要它是可靠的。
然而,坏数据可以通过几乎无限多的方式被引入到好的数据管道中。有时,它可能是一个嘈杂的异常,错误很快就会被发现;其他时候,它可能是一个渐进的数据漂移案例,随着时间的推移降低了你的模型的准确性。无论哪种方式,它都是坏事。
这是因为你建立这个模型是为了自动化或告知一个痛苦的业务问题--所以当准确性下降时,信任度也会下降,后果是很严重的。例如,我的一位同事与一家金融公司谈过,该公司正在使用一个机器学习模型来购买符合某些标准的债券。糟糕的数据使其下线,几周后才被信任,重新投入生产。 (也可以阅读。 金融科技的未来。金融机构的人工智能和数字资产.)
支持机器学习模型的数据基础设施需要不断测试和观察--最好是以一种规模化、自动化的方式。
4.4.部署的复杂性
事实证明,在生产中部署和维护机器学习需要大量的资源。谁知道呢?
嗯,Gartner知道。它预测,到2025年,人工智能将成为推动基础设施决策的首要类别,因为人工智能市场的成熟导致计算需求增长了10倍。
这需要业务利益相关者的大量支持,这就是为什么业务调整如此重要。例如,前Uber数据产品经理Atul Gupte领导了一个项目,以改善该组织的数据科学家使用的数据科学工作台,使其更容易协作。
目前,数据科学家们正在将验证和核实工人文件的过程自动化,这些文件是申请加入Uber平台时需要的。对于机器学习和深度学习来说,这是一个伟大的项目,但问题是数据科学家经常会遇到可用计算的限制。
Gupte研究了多种解决方案,发现虚拟GPU(当时是一种新兴技术)是一种可能的解决方案。虽然价格很高,但Gupte用领导力证明了支出的合理性。该项目不仅为公司节省了数百万美元,而且支持了一个关键的竞争差异化因素。
另一个例子是Netflix从未将其获奖的推荐算法投入生产,而是选择了一个更简单的解决方案,更容易集成。(另外阅读: 人工智能是如何实现娱乐个性化的.)
如何避免这些陷阱
不要让这些挑战打消你启动机器学习计划的念头。
通过以下方式减轻这些风险因素。
正如汤姆-汉克斯在《他们的联盟》中所说:"如果这不难,每个人都会做。正是因为难,所以才伟大"。
广告
相关术语
分享这篇文章
广告
作者:Lior Gavish | 首席技术官
Lior Gavish是数据可靠性公司Monte Carlo的首席技术官和联合创始人,也是业界首个端到端数据观察平台的创建者。
遵循。
标签
相关文章
人工智能
机器学习的承诺和陷阱
IT职业
工作角色。数据科学家
人工智能
数据目录和机器学习市场的成熟度
视觉中国
人工智能的发展如何影响安全、网络安全和黑客攻击
技术发展迅速!通过Techopedia保持领先地位!
加入近200,000名订阅者的行列,他们从Techopedia获得可操作的技术洞察力。
注册
谢谢您订阅我们的新闻简报
广告
最新文章
-
你是房间里唯一的女人吗?利用它来发挥你的优势。
作者 Danielle Phaneuf| 云计算和数字战略负责人
-
再见老板,你好未来的办公室:2022年冠状病毒版
通过: 贾斯汀-斯托尔茨福斯| 撰稿人、评论员
-
零信任架构的最大威胁?孤岛。
通过: 道格-卡斯滕| 首席信息安全官
-
我们现在的购买方式。BNPL的ABC
通过: Ariella Brown| 撰稿人
广告
广告