机器学习的探索性分析的实例

125 阅读5分钟

探索性分析对于有效的数据科学来说是必不可少的,因为它可以帮助你避免盲目的追逐和死胡同。这个步骤不应该与数据可视化或汇总统计相混淆。这些仅仅是工具达到目的的手段。

正确的探索性分析是为了回答问题。它是关于从你的数据集中提取足够的洞察力,以便你迷失在杂草中之前纠正方向。在本指南中,我们解释了你应该在数据中寻找哪些洞察力。

为什么要在前期进行探索性分析?

探索性分析的目的是为了"了解"数据集。在前期这样做将使项目的其余部分更加顺利,主要体现在三个方面。

  1. 你将获得关于数据清理的宝贵提示(这可以使你的模型成功或失败)。
  2. 你会想到特征工程的想法(它可以使你的模型从好到大)。
  3. 你将获得对数据集的 "感觉",这将有助于你交流结果并产生更大的影响。

然而,机器学习的探索性分析应该是快速、高效和果断的,而不是冗长和拖沓的!不要跳过这一步,但也不要卡在这一步。

你看,有无穷无尽的可能的绘图、图表和表格,但你只需要少数几个就可以很好地 "了解 "数据,并与之合作。在本指南中,我们将向你展示那些能提供最大价值的可视化方案。

从基础知识开始

首先,你要回答一组关于数据集的基本问题。

  • 我有多少个观测值?
  • 有多少个特征?
  • 我的特征的数据类型是什么?它们是数字的吗?还是分类的?
  • 我有一个目标变量吗?

这些术语中是否有你不知道的?如果是,请回顾一下机器学习的关键术语

Basic Information

知道你在做什么。

观察实例

然后,你要展示数据集中的观察实例。这将使你对每个特征的值有一个 "感觉",这也是检查一切是否合理的好方法。

下面是一个来自房地产数据集的例子。

Real Estate Dataset Example Observations

显示数据集中的例子的目的不是为了进行严格的分析。相反,它是为了对数据集有一个定性的 "感觉"

  • 这些列有意义吗?
  • 这些列中的值有意义吗?
  • 这些数值的比例是否正确?
  • 根据快速的眼球测试,缺失数据会是一个大问题吗?

绘制数字分布图

接下来,绘制数字特征的分布图会很有启发性。通常情况下,一个快速和肮脏的直方图网格就足以了解分布情况。

Histogram Grid

这里有一些需要注意的地方。

  • 出乎意料的分布
  • 不合理的潜在离群值
  • 应该是二进制的特征(即 "想当指标变量")。
  • 没有意义的边界
  • 潜在的测量错误

在这一点上,你应该开始记录你想做的潜在修正。如果有些东西看起来不对劲,比如你的某个特征中存在潜在的异常值,现在是询问客户/主要利益相关者的好时机,或者再深入挖掘一下。

然而,我们将等到数据清理时再进行修复,这样我们就可以保持我们的步骤有条不紊。

绘制分类分布图

分类特征不能通过直方图进行可视化。相反,你可以使用柱状图。特别是,你要注意稀疏类,也就是观察数非常少的类。

顺便说一下,一个"类 "只是一个分类特征的唯一值。例如,下面的柱状图显示了一个叫做"外部墙体 "的特征的分布。因此,木墙板、砖和石膏是该特征的每个类。

Bar Plots

总之,回到稀疏类,正如你所看到的,'exterior_walls' 的一些类有很短的条形图。这些是稀疏类。

在建立模型时,它们往往是有问题的。

  • 在最好的情况下,它们对模型的影响不大。
  • 在更糟的情况下,它们会导致模型过拟合

因此,我们建议做一个记录,以便以后 合并重新分配其中的一些类。我们更倾向于将其保存到特征工程中。

绘制分割图

分段是观察分类特征和数字特征之间关系的有力方法。箱形图允许你这样做。

Box Plot Segmentation

以下是你可以从以下图表中得出的一些见解。

  • 单户住宅的交易价格中值(方框中的中间竖条)远远高于公寓/共管公寓/联排别墅的交易价格。
  • 这两类房屋的最低最高交易价格是相当的。
  • 事实上,整数的最小值(20万美元)和最大值(80万美元)表明可能存在数据截断现象
  • 这在以后评估模型的普遍性时是非常重要的。

评估相关关系

最后,相关关系允许你看一下数字特征和其他数字特征之间的关系。

相关性是一个介于-1和1之间的数值,它代表了两个特征统一运动的密切程度。你不需要记住计算它们的数学方法。只要知道以下的直觉就可以了。

  • 相关意味着随着一个特征的增加,另一个也会增加。例如,一个孩子的年龄和她的身高。
  • 负相关 意味着,当一个特征增加时,另一个特征就会减少。例如,花在学习上的时间和参加聚会的次数。
  • 接近-1或1的相关性表示有很强的关系
  • 接近于0的表示关系弱
  • 0表示没有关系

相关性热图帮助你直观地了解这些信息。下面是一个例子(注意:所有的相关性都乘以100)。

Correlations Heatmap

一般来说,你应该注意的是

  • 哪些特征与目标变量强烈相关?
  • 其他特征之间是否存在有趣的或意想不到的强相关?

同样,你的目的是获得关于数据的直觉,这将有助于你在整个工作流程的其余部分。