探索性分析对于有效的数据科学来说是必不可少的,因为它可以帮助你避免盲目的追逐和死胡同。这个步骤不应该与数据可视化或汇总统计相混淆。这些仅仅是工具达到目的的手段。
正确的探索性分析是为了回答问题。它是关于从你的数据集中提取足够的洞察力,以便在你迷失在杂草中之前纠正方向。在本指南中,我们解释了你应该在数据中寻找哪些洞察力。
为什么要在前期进行探索性分析?
探索性分析的目的是为了"了解"数据集。在前期这样做将使项目的其余部分更加顺利,主要体现在三个方面。
- 你将获得关于数据清理的宝贵提示(这可以使你的模型成功或失败)。
- 你会想到特征工程的想法(它可以使你的模型从好到大)。
- 你将获得对数据集的 "感觉",这将有助于你交流结果并产生更大的影响。
然而,机器学习的探索性分析应该是快速、高效和果断的,而不是冗长和拖沓的!不要跳过这一步,但也不要卡在这一步。
你看,有无穷无尽的可能的绘图、图表和表格,但你只需要少数几个就可以很好地 "了解 "数据,并与之合作。在本指南中,我们将向你展示那些能提供最大价值的可视化方案。
从基础知识开始
首先,你要回答一组关于数据集的基本问题。
- 我有多少个观测值?
- 有多少个特征?
- 我的特征的数据类型是什么?它们是数字的吗?还是分类的?
- 我有一个目标变量吗?
这些术语中是否有你不知道的?如果是,请回顾一下机器学习的关键术语。

知道你在做什么。
观察实例
然后,你要展示数据集中的观察实例。这将使你对每个特征的值有一个 "感觉",这也是检查一切是否合理的好方法。
下面是一个来自房地产数据集的例子。

显示数据集中的例子的目的不是为了进行严格的分析。相反,它是为了对数据集有一个定性的 "感觉"。
- 这些列有意义吗?
- 这些列中的值有意义吗?
- 这些数值的比例是否正确?
- 根据快速的眼球测试,缺失数据会是一个大问题吗?
绘制数字分布图
接下来,绘制数字特征的分布图会很有启发性。通常情况下,一个快速和肮脏的直方图网格就足以了解分布情况。

这里有一些需要注意的地方。
- 出乎意料的分布
- 不合理的潜在离群值
- 应该是二进制的特征(即 "想当指标变量")。
- 没有意义的边界
- 潜在的测量错误
在这一点上,你应该开始记录你想做的潜在修正。如果有些东西看起来不对劲,比如你的某个特征中存在潜在的异常值,现在是询问客户/主要利益相关者的好时机,或者再深入挖掘一下。
然而,我们将等到数据清理时再进行修复,这样我们就可以保持我们的步骤有条不紊。
绘制分类分布图
分类特征不能通过直方图进行可视化。相反,你可以使用柱状图。特别是,你要注意稀疏类,也就是观察数非常少的类。
顺便说一下,一个"类 "只是一个分类特征的唯一值。例如,下面的柱状图显示了一个叫做"外部墙体 "的特征的分布。因此,木墙板、砖和石膏是该特征的每个类。

总之,回到稀疏类,正如你所看到的,'exterior_walls' 的一些类有很短的条形图。这些是稀疏类。
在建立模型时,它们往往是有问题的。
- 在最好的情况下,它们对模型的影响不大。
- 在更糟的情况下,它们会导致模型过拟合。
因此,我们建议做一个记录,以便以后 合并 或重新分配其中的一些类。我们更倾向于将其保存到特征工程中。
绘制分割图
分段是观察分类特征和数字特征之间关系的有力方法。箱形图允许你这样做。

以下是你可以从以下图表中得出的一些见解。
- 单户住宅的交易价格中值(方框中的中间竖条)远远高于公寓/共管公寓/联排别墅的交易价格。
- 这两类房屋的最低和最高交易价格是相当的。
- 事实上,整数的最小值(20万美元)和最大值(80万美元)表明可能存在数据截断现象。
- 这在以后评估模型的普遍性时是非常重要的。
评估相关关系
最后,相关关系允许你看一下数字特征和其他数字特征之间的关系。
相关性是一个介于-1和1之间的数值,它代表了两个特征统一运动的密切程度。你不需要记住计算它们的数学方法。只要知道以下的直觉就可以了。
- 正 相关意味着随着一个特征的增加,另一个也会增加。例如,一个孩子的年龄和她的身高。
- 负相关 意味着,当一个特征增加时,另一个特征就会减少。例如,花在学习上的时间和参加聚会的次数。
- 接近-1或1的相关性表示有很强的关系。
- 接近于0的表示关系弱。
- 0表示没有关系。
相关性热图帮助你直观地了解这些信息。下面是一个例子(注意:所有的相关性都乘以100)。

一般来说,你应该注意的是
- 哪些特征与目标变量强烈相关?
- 其他特征之间是否存在有趣的或意想不到的强相关?
同样,你的目的是获得关于数据的直觉,这将有助于你在整个工作流程的其余部分。