使用CRISP-DM方法进行数据挖掘
本文将介绍如何使用CRISP-DM方法论来构建成功的数据科学项目。我们还将通过分析一个案例研究来了解如何使用它。
我们将研究一个案例,了解这种方法论如何帮助数据科学家建立成功的项目。作为先决条件,你必须对数据科学项目的构建方式有一个初级水平的了解。
简介
随着数据挖掘在多个行业应用的增加, 需要一个标准框架来实现项目的目标。
使用一个标准框架有助于我们。
- 记录经验,以后可用于其他类似项目的复制。
- 改善项目规划和管理。
- 鼓励用于实现更好结果的最佳做法。
随着项目复杂性的增加,我们建议遵循一个标准的框架来更快地实现目标。
什么是CRISP-DM?
CRISP-DM是用于建立数据挖掘项目的最优先技术之一。在2007年和2014年进行民意调查后,可以看到这种方法的使用率有了明显的提高,如下图所示。
"数据挖掘是一个过程模型,描述了数据挖掘专家用来解决问题的常用方法......它是行业数据挖掘者使用的主要方法。"
CRISP-DM是一个6步流程。
- 理解问题陈述。
- 理解数据。
- 准备数据。
- 进行数据分析。
- 验证数据。
- 呈现/可视化数据。

问题陈述
为了理解CRISP-DM方法,让我们看一个简单的案例研究。
一家公用事业公司想预测未来几天的电力需求,以分配必要的资源用于发电。
现在我们已经理解了什么是商业问题。让我们设计一个解决方案来预测未来几天的用电量。
CRISP-DM的步骤
理解问题陈述
这一步的重点是了解项目的目标,以及从企业的角度提出的要求。
要问的问题是。
- 问题是什么?
- 目标是什么?
- 如何衡量项目的成功?
- 谁是利益相关者?
现在,让我们从我们的问题陈述的角度来理解这个问题。
确定商业目标
这一步可以帮助我们确定在考虑一个企业是否成功时要采取的必要方法。
对于我们的问题,我们的目标是 "预测第二天的大概用电量,以分配必要的资源"。
评估情况
这一步帮助我们通过确定项目的资源和利益相关者来分析项目的当前情况。
对于我们的问题。
- 我们必须找出影响耗电量增加的因素。影响它的一个主要因素是温度。
确定数据挖掘目标
这一步可以帮助我们确定如何将商业目标转化为数据挖掘目标,并为其评估选择一个合适的方式。
对于我们的问题。
- 我们必须使用数据挖掘技术来寻找影响消费的其他因素。
- 我们必须找出它是什么类型的问题--分类,预测,还是聚类?
制作一个项目计划
这最后一步帮助我们创建一个初步的流程计划,并估计实现目标所需的努力和资源。
对于我们的问题。
- 我们必须估计发电时需要的资源。
- 我们必须设计出一系列的步骤来分析消耗。
- 我们必须决定如何对项目进行评估。
- 我们必须决定对工具和技术的选择。
理解数据
数据理解阶段从最初的数据收集开始,然后进行一些活动来熟悉数据,识别数据质量问题,发现对数据的第一个洞察力,或者检测有趣的子集,以形成对隐藏信息的假设。
要问的问题是。
- 需要什么信息?
- 哪些信息是可用的?
- 我们如何收集所需的信息?
- 数据的基本模式是什么?
对于我们的问题。
- 基于一个假设,我们可以说,日期、时间和温度是影响耗电量的3个主要因素。
- 在进行这个假设之前,我们必须进行探索性数据分析来验证我们的假设。
- 我们必须找到将用于解决问题的数据类型。数据类型是指离散的、连续的、时间序列的或季节性的数据。
- 我们必须对数据进行统计分析,找到各种类型数据之间的关系。
准备数据
数据准备阶段涵盖了从最初的原始数据构建最终数据集(将被输入建模工具的数据)的所有活动。数据准备任务可以是反复的,不需要遵循任何顺序。任务包括数据的格式化、转换和清理。
在这个步骤中,我们必须遵循本文中提到的5个常见步骤。
- 收集。从多个经过验证的来源收集数据。
- 清理。数据可能是缺失的或有噪音的,有时是不正确的。清理数据是最重要的任务之一。
- 格式化。数据必须适合使用情况,这需要对数据进行转换或增加。
- 融合。数据可以从多种资源中整合和混合,以实现预期目标。
- 取样。处理大量的数据总是很麻烦的。因此,分割并集中于重要的数据会减少资源的浪费。
这些步骤对于我们选择的任何类型的数据集都是通用的,不管是什么问题。
进行数据分析
在这个阶段选择和应用各种建模技术,并将其参数校准为最佳值。每个数据都有自己的要求,理解它们有时需要重申以前的过程。
需要考虑的事情。
- 确定什么技术可以用来解决这个问题。
- 确定解决问题所需的数据要求。
- 设计一个模型的原型。
- 验证该模型,并重新设计模型。
在我们的问题中,我们发现温度和耗电量之间存在高度的相关性。这可以通过本文中提到的一系列步骤来发现。
- 建立一个预测模型--根据历史数据预测未来几天的温度。
- 验证模型--通过预测第二天的电量来验证,检查是否存在相关性。
- 重复这个过程--重复上述两个过程,直到获得相关的信心。
- 进行分析--获得信心后,我们可以进行分析,帮助我们进行资源分配。
验证数据
在项目的这个阶段,你已经建立了一个(或多个)模型,从数据分析的角度来看,似乎是高质量的。在进行模型的最终部署之前,重要的是要更彻底地评估该模型,并审查构建模型所执行的步骤,以确定它正确地实现了商业目标。
需要考虑的事情。
- 确保结果符合预期。
- 决定是否进行下一步或返回到前一个阶段。
- 记下可能导致失败的重要因素。
- 与终端用户进行各种测试。
在我们的问题中,我们一直基于温度是影响消耗的关键因素之一的假设来工作。在验证时,如果我们发现温度与耗电量不相关,我们必须回滚到上一步,进一步修改我们的模型。
呈现/可视化数据
模型的建立一般不是项目的结束。即使模型的目的是增加数据的知识,所获得的知识也需要以有用的方式组织和呈现给客户。
需要考虑的事情。
- 根据分析和受众,确定呈现见解的最佳方法。
- 故事比事实更有说服力。
- 确保每个决定都有适当的研究作为支持。
- 让终端用户能够有一个可视化的解决方案的工作流程。
尽管分析员可能已经分析了问题,但将客户/业务经理的见解可视化并展示给他们是关键的一步。
结语
总之,我们已经学习了各种CRISP-DM方法步骤,并通过分析一个案例研究来理解它们。只有在你的下一个数据科学项目中使用这种方法,才能更好地理解。
编码愉快!
总结一下。
-
我们了解到建立数据科学项目需要一个框架。
-
我们了解了CRISP-DM方法的细节。
-
我们还分析了一个案例研究来了解这个方法。