为研究建立机器学习模型可能是一种挑战,特别是当你从头开始开发它们时。在你成功部署ML模型用于生产之前,有几个因素会发挥作用。其中一些方面包括数据收集、在有限的时间内训练数据、非代表性的训练数据、数据质量差、不相关/不需要的特征、训练数据过拟合、训练数据欠拟合和离线学习、模型的开发等等。
去年,Gartner报告说,只有53%的项目从原型到生产 - 这是在具有一定程度的人工智能/ML经验的组织。另一方面,这个数字可能要高得多,一些失败率估计达到近90%。在麦肯锡的报告中,在160家公司中,88%的公司在实验阶段后没有进展。
Amperity公司高级分析部副总裁克里斯-查波 说,最大的原因之一是人们相信通过向一个问题投钱或投入技术,成功就会出现在另一端。"这是不可能的,"查波说。
那么,这里的秘方是什么?是否有一个简单的方法或一个成功部署机器学习模型的逐步指南?
迈克尔-A-隆斯在一篇题为《如何避免机器学习的陷阱:学术研究人员指南》的研究论文中,解释了使用机器学习技术时出现的常见错误以及如何避免这些错误。Lones是爱丁堡赫瑞瓦特大学数学和计算机科学学院的一名副教授。
数据就是一切
在潜心研究复杂的技术之前,你可能应该对每个机器学习项目进行一些基本的数据清理方法。不幸的是,这些方法甚至被经验丰富的机器学习专家和研究人员所忽视,但却非常关键,如果跳过这些方法,模型可能会崩溃或报告过于乐观的性能结果/成果。
Lones说,想急于训练和评估模型是正常的,但重要的是要花时间思考项目的目标,了解数据、其局限性、以前的工作等。他说,如果你不做这些事情,你最终可能会得到难以发表的结果或不适合其预期目的的模型。
因此,在你开始建立你的模型之前,这里有一些需要考虑的事情。
- 花时间了解你的数据
- 看一下你的所有数据
- 确保你有足够的数据
- 与领域专家交谈
- 调查文献
- 思考你希望你的模型如何被部署
建立可靠的模型
构建模型是机器学习中最重要的部分之一。有了现代的ML框架,很容易把所有的技术扔到你的数据上,看看什么是有效的。这有时会导致实验的混乱,难以证明和记录。Lones认为,以一种有组织的方式来建立模型是前进的方向。你要确保正确地利用数据,并对模型的选择进行充分考虑。他建议采取以下步骤来确保你建立一个可靠的模型。
- 不要让测试数据泄露到训练过程中去
- 尝试一系列不同的模型
- 使用不合适的模型
- 优化你的模型的超参数
- 在优化超参数的地方要谨慎,并选择
评估模型的稳健性
Lones说,人们需要有有效的结果,你可以从中得出可靠的结论。没有这一点,就很难评估结果。他说,人们应该仔细考虑他们如何在实验中使用数据,衡量他们模型的真实性能,以及他们如何以有意义的方式报告这种性能。
以下是评估你的机器学习模型时需要考虑的提示
- 使用一个适当的测试集
- 使用一个验证集
- 对一个模型进行多次评估
- 保存一些数据来评估你的最终模型实例
- 不要使用不平衡数据集的准确性
公平地比较模型
比较模型是人工智能/ML研究工作中最常见的做法之一,但要把它做对也很有挑战性。Lones说,如果一个研究人员不公平地进行比较并发表,其他研究人员随后可能会被带入歧途。因此,他建议研究人员在同一背景下评估不同的模型,探索多个角度,并适当地利用统计测试。
以下是在比较你的机器学习模型时需要考虑的事情。
- 不要认为数字越大就意味着模型越好
- 在比较模型时使用统计测试
- 做好多重比较的修正工作
- 不要总是相信社区基准的结果
- 考虑模型的组合
报告结果
Lones说,学术研究的目的不应该是自我吹嘘,而是一个为知识做贡献的机会。因此,人们需要提供他们工作的完整情况,展示哪些是有效的,哪些是无效的。"机器学习通常是关于权衡的,你应该尝试用一种细微的、深思熟虑的方法来反映这一点,"Lones说。
以下是在报告你的模型结果之前需要考虑的一些关键事项。
- 要透明
- 以多种方式报告业绩
- 不要超出数据的范围进行概括
- 报告统计学意义时要小心
- 审视你的模型
结论
Lones认为,这些文件并没有告诉你需要知道的一切,这些教训有时没有确定的结论,而且这里讨论的一些事情是可以商榷的。
"这恐怕就是研究的本质。如何做ML的理论几乎总是落后于实践;学术界对做事的最佳方法总是有不同意见,我们今天认为正确的东西明天可能就不正确了,"Lones说。他说,人们必须以对待任何其他研究领域的方式来对待机器学习--以开放的心态,愿意与最新的发展保持同步,并谦逊地接受你并不了解一切。
The postA Step-by-Step Guide To Build ML Models for Researchappeared first onAnalytics India Magazine.