4个常见的机器学习陷阱以及如何避免这些陷阱

91 阅读8分钟
  1. 所有文章
  2. 人工智能
  3. 机器学习

4个常见的机器学习陷阱以及如何避免这些陷阱

作者:Lior Gavish

查看我们的编辑政策

发表于2022年7月4 日|最后更新。2022年7月25日

目录

主要启示

大多数机器学习项目的失败可以追溯到缺乏业务一致性、培训不力、数据质量问题和部署的复杂性。你可以通过使用减轻风险的最佳做法来避免这些陷阱。

4 Common Machine Learning Pitfalls and How To Avoid Them

来源:istockphoto.com

机器学习是当今技术领域最热门的话题之一,这是有原因的。

广告

它具有巨大的潜力,可以将知识工作者面临的一些最繁琐的任务自动化或半自动化--领先的科技公司已经开始实现这种潜力。

例如,机器学习可以帮助将以下任务的人工劳作减少50%或更多。

广告

随着机器学习的应用越来越广泛,我们正处于释放这种价值的前夕。Algorithmia的一项研究发现,在2021年,76%的企业将人工智能(AI)和机器学习(ML)置于其他IT计划之上。

然而,大多数机器学习计划都失败了。(还请阅读: 机器学习的承诺和陷阱.)

虽然有无数的原因导致ML试点从未起飞,但最紧迫的问题可以追溯到四个主要陷阱。

  1. 缺少业务一致性
  2. 糟糕的机器学习培训实践。
  3. 数据质量问题。
  4. 部署的复杂性。

让我们逐一探讨这些问题,并为数据团队和组织提出一些解决方案,以避免这些问题。

广告

1.缺少业务调整

机器学习的原罪在于大多数项目是如何诞生的。

很多时候,一群数据科学家在构思机器学习项目时都会想:"这个数据很有趣;如果...... "岂不是很酷?

而正是这种思维方式将ML项目变成了科学实验。

这类项目中的模型仍有可能产生一些有价值的东西--但如果该项目没有解决一个紧迫而痛苦的需求,它就不会得到企业利益相关者的时间或关注。或者更糟的是,它可能成为更接近于区块链的东西:一个寻找问题的酷技术。 (还可以阅读。 区块链技术简介.)

机器学习项目应该从关注最紧迫的业务专业人员开始,然后评估需要哪些资源来解决这些问题--而不是从手头的干净数据开始,然后试图找到一个他们可以解决的问题。

在启动机器学习项目之前,要问的好问题包括:。

  • 这个问题是否紧急?据谁说的?
  • 为什么机器学习是这个问题的正确解决方案?
  • 我们将如何定义成功?

2.糟糕的机器学习培训

假设你的项目有一个非常难的、有价值的商业问题在眼前。下一步是收集足够的干净数据来训练模型

这就是数据科学家的悖论:为了消除别人的劳累,他们必须沉浸在其中。

根据Anaconda的数据,数据科学家在数据准备任务上花费了大约45%的时间,包括加载和清理数据。

有一个相当大的机会,在所有这些工作之后,可能只是没有足够的合适或有代表性的训练数据。而且,像任何其他人工任务一样,会引入人为错误的风险。 (还可以阅读。 自动化。数据科学和机器学习的未来?)

微调你的ML模型也是一种挑战。它可能是过拟合的,即学得太多,也可能是欠拟合的,即学得太少。

你问,一个机器学习模型怎么可能学得太好

有一个著名的例子,一个模型被训练来区分哈士奇和狼。它在训练中非常准确,但在生产中却开始失败。问题出在哪里?所有狼的照片的背景都有雪,而哈士奇却没有。这是一个探测雪的模型,而不是一个探测狼的模型。

不幸的是,机器学习培训也许是一个你不希望得到100%分数的测试。

3.数据质量问题

无论是在训练中还是在部署中,如果数据不好,就不可能有一个有效的机器学习模型。就像他们说的,垃圾进,垃圾出

挑战在于,机器学习模型对数据的渴望。他们总是想要更多的数据--只要它是可靠的。

然而,坏数据可以通过几乎无限多的方式被引入到好的数据管道中。有时,它可能是一个嘈杂的异常,错误很快就会被发现;其他时候,它可能是一个渐进的数据漂移案例,随着时间的推移降低了你的模型的准确性。无论哪种方式,它都是坏事。

这是因为你建立这个模型是为了自动化或告知一个痛苦的业务问题--所以当准确性下降时,信任度也会下降,后果是很严重的。例如,我的一位同事与一家金融公司谈过,该公司正在使用一个机器学习模型来购买符合某些标准的债券。糟糕的数据使其下线,几周后才被信任,重新投入生产。 (也可以阅读。 金融科技的未来。金融机构的人工智能和数字资产.)

支持机器学习模型的数据基础设施需要不断测试和观察--最好是以一种规模化、自动化的方式。

4.4.部署的复杂性

事实证明,在生产中部署和维护机器学习需要大量的资源。谁知道呢?

嗯,Gartner知道。它预测,到2025年,人工智能将成为推动基础设施决策的首要类别,因为人工智能市场的成熟导致计算需求增长了10倍。

这需要业务利益相关者的大量支持,这就是为什么业务调整如此重要。例如,前Uber数据产品经理Atul Gupte领导了一个项目,以改善该组织的数据科学家使用的数据科学工作台,使其更容易协作。

目前,数据科学家们正在将验证和核实工人文件的过程自动化,这些文件是申请加入Uber平台时需要的。对于机器学习和深度学习来说,这是一个伟大的项目,但问题是数据科学家经常会遇到可用计算的限制。

Gupte研究了多种解决方案,发现虚拟GPU(当时是一种新兴技术)是一种可能的解决方案。虽然价格很高,但Gupte用领导力证明了支出的合理性。该项目不仅为公司节省了数百万美元,而且支持了一个关键的竞争差异化因素。

另一个例子是Netflix从未将其获奖的推荐算法投入生产,而是选择了一个更简单的解决方案,更容易集成。(另外阅读: 人工智能是如何实现娱乐个性化的.)

如何避免这些陷阱

不要让这些挑战打消你启动机器学习计划的念头。

通过以下方式减轻这些风险因素。

  • 尽早获得利益相关者的支持,并经常进行调整。
  • DevOps的方式进行迭代。
  • 确保你有正确的训练数据,并在生产之前和之后监测质量。
  • 牢记生产资源的限制。

正如汤姆-汉克斯在《他们的联盟》中所说:"如果这不难,每个人都会做。正是因为难,所以才伟大"。

广告

相关术语

分享这篇文章

  • Facebook
  • LinkedIn
  • Twitter

广告

作者:Lior Gavish | 首席技术官

Lior Gavish是数据可靠性公司Monte Carlo的首席技术官和联合创始人,也是业界首个端到端数据观察平台的创建者。

阅读Lior Gavish的简历

遵循。

  • Follow on Twitter
  • Follow on LinkedIn
  • View Website

标签

人工智能 机器学习

相关文章

Photo for The Promises and Pitfalls of Machine Learning

人工智能

机器学习的承诺和陷阱

Photo for Job Role: Data Scientist

IT职业

工作角色。数据科学家

Photo for Data Catalogs and the Maturation of the Machine Learning Market

人工智能

数据目录和机器学习市场的成熟度

Photo for How AI Advancements Are Affecting Security, Cybersecurity and Hacking

视觉中国

人工智能的发展如何影响安全、网络安全和黑客攻击

技术发展迅速!通过Techopedia保持领先地位!

加入近200,000名订阅者的行列,他们从Techopedia获得可操作的技术洞察力。

注册

谢谢您订阅我们的新闻简报

广告

最新文章

广告

广告