简介
构建一个机器学习模型涉及到很多步骤--这些步骤并不局限于客观准则,而是需要根据业务问题的复杂性采取更详尽的方法和深度。
1.最终目标是什么?
业务问题可以通过多种方式解决--你需要决定是否真的需要机器学习解决方案,还是可以通过简单的启发式方法解决?目前是否已经有一个解决方案在为该业务问题服务?如果有,你需要做一个彻底的分析,了解它的局限性,并寻求能够最好地克服这些局限性的机器学习解决方案。下一步应该是比较这两种解决方案--拟议的机器学习解决方案是否也有其局限性。例如,ML解决方案是概率性的,可能不会一直正确。企业需要对这种局限性进行调整,并在当前和拟议的解决方案之间进行权衡。
另一个起着关键作用的因素是,在一个ML解决方案中仍然需要何种程度的人类专业知识和干预。我们是否需要人类在循环中批准ML模型的结果或验证它?
一旦ML解决方案似乎是商业问题的唯一选择,并认识到它的优点和缺点,数据科学家就会将商业问题框定为统计问题,并决定它属于哪个框架?ML问题可以大致分为有监督和无监督的问题。
另外,评估指标对于决定最佳性能的算法也很重要。在转换和翻译评价指标,如精确度、召回率等(在分类的情况下)到业务指标方面,应该注意。数据科学家严谨地工作,以获得最佳精度,但未能解释它对业务结果的影响。例如,如果我们知道精度下降1%的美元价值,就能更清楚地理解为什么精度在一个特定的用例中是重要的。
2.2.落地
你已经评估了建立ML模型的需求,使用哪种框架和算法,如监督/非监督,分类与回归等,并最终签署了指标,作为提供解决方案的服务协议。
恭喜你,你现在处于一个更好的空间。为什么?因为建立模型之旅的有趣部分从这里开始。你现在有了一个谈论数据的绿色信号。
请注意,现实世界中的解决方案并不像Kaggle提供的那样,给你一个框架清晰的问题陈述。尽管这是每一个数据科学家都想避免的麻烦,但这是对一个经验丰富的数据科学家的真正考验。一个人可以在一个不那么清晰的情况下,不等待指示,而是通过自己的方式来实现。相反,他努力使给定的数据达到最佳效果,并记录假设和限制,以支持其结论。人们不应该等待整个数据的提供--很多时候你不会有人类专家可以实时行动的所有属性。
在跨越了缺乏数据的障碍后,接下来等待的是数据质量问题。它本身就是文献,可以在这里进一步阅读。
3.建立与数据的联系
数据探索是更好地理解你的数据并形成一种联系的途径。在这个阶段,你在数据上投入的时间越多,在模型生命周期的后期,回报就会越高。
对数据的彻底调查包括但不限于寻找相关性,检测异常值,决定合法与异常的记录,识别缺失值,了解估算它们的正确方法,等等。接下来,你可能还需要进行数据转换,如对数转换、数据缩放和归一化、特征选择和新特征工程。
每一个数据都在讲述一个故事,而编织故事的最好方式就是在可视化的支持下,如箱形图、密度图、散点图等。
4.哪个模型说 "我是最好的"?
你如何为给定的数据集选择模型--一个线性模型是否能很好地概括传入的数据集或基于树的组合体。你有足够的数据来训练一个神经网络吗?
从候选模型集中选择表现最好的模型来调整超参数。如果你选择了神经网络,那么你打算如何调整超参数,如层数和神经元、学习率、优化器、损失函数等。
5.沟通是关键
由于被周围的技术所包围,我们很容易低估了使数据科学项目取得成功的关键技能,即沟通。是的,你如何沟通为不同受众量身定做的结果,显示了用不同程度的技术术语塑造解决方案的技能。可视化是价值百万的,对设置那些商业讨论的成功超级有帮助。
重要的一点是,要对你的所有发现诚实,然后让大家一起发号施令。不要让自己承担击中靶心和提出黄金解决方案的负担。指出你的模型在什么地方有效,在什么地方失败。企业什么时候可以相信模型的预测,有多大的信心?
从本质上讲,你解释模型预测和考虑可解释的人工智能解决方案的能力将使你成为你的模型的一个伟大的调试者,并将确保企业认为模型是在正确的手中。
你有没有为部署做计划?
到目前为止,我们已经谈到了模型的建立过程,结果发现这本身就是一个漫长的过程。你会对等待部署的模型做什么?这本身就是另一个章程,广泛涉及MLOps的不同方面,如编写单元测试、预算延迟、验证数据集、模型监测和维护、错误分析等。
你将如何处理传入的数据--是继续积累数据还是将旧数据归档并在新数据上重新训练模型,这也需要一个完善的形式主义。
Vidhi Chugh是一位获奖的AI/ML创新领导者和AI伦理学家。她在数据科学、产品和研究的交叉点工作,以提供商业价值和洞察力。她是以数据为中心的科学的倡导者,也是数据治理方面的领先专家,她的愿景是建立值得信赖的人工智能解决方案。
