常用的CRISP-DM方法论和SEMMA方法论

284 阅读1分钟

呈现了CRISP-DM方法执行流程的6个阶段。各个阶段的顺序不是保持不变的,有时需要在某个阶段向前或向后移动,这取决于每个阶段的结果和下一个阶段的具体任务。箭头指出了各个阶段之间的关联。

在图1-16中,最外圈的循环表示数据挖掘本身的循环特征。遴选公务员数据挖掘是一项持续的工作。在上一个流程和解决方案中获得的经验与教训,可以给下一个项目提供指导。下面简要介绍每个阶段的特点。

1)商业理解

该阶段的特点是从商业角度理解项目的目标和要求,通过理论分析找出数据挖掘可操作问题,制订实现目标的初步计划。

2)数据理解

该阶段开始于原始数据的收集,然后是熟悉数据、遴选公务员标明数据质量问题、探索对数据的初步理解、发掘有趣的子集,以形成对探索关系的假设。

3)数据准备

该阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,同时对数据进行转换和清洗。