机器学习的探索性分析的实例欢迎来到我们的《数据科学入门》的第二部分。探索性分析对于有效的数据科学来说是必不可少的，因为它

探索性分析对于有效的数据科学来说是必不可少的，因为它可以帮助你避免盲目的追逐和死胡同。这个步骤不应该与数据可视化或汇总统计相混淆。这些仅仅是工具达到目的的手段。

正确的探索性分析是为了回答问题。它是关于从你的数据集中提取足够的洞察力，以便在你迷失在杂草中之前纠正方向。在本指南中，我们解释了你应该在数据中寻找哪些洞察力。

为什么要在前期进行探索性分析？

探索性分析的目的是为了"了解"数据集。在前期这样做将使项目的其余部分更加顺利，主要体现在三个方面。

然而，机器学习的探索性分析应该是快速、高效和果断的，而不是冗长和拖沓的!不要跳过这一步，但也不要卡在这一步。

你看，有无穷无尽的可能的绘图、图表和表格，但你只需要少数几个就可以很好地 "了解 "数据，并与之合作。在本指南中，我们将向你展示那些能提供最大价值的可视化方案。

首先，你要回答一组关于数据集的基本问题。

这些术语中是否有你不知道的？如果是，请回顾一下机器学习的关键术语。

Basic Information

知道你在做什么。

然后，你要展示数据集中的观察实例。这将使你对每个特征的值有一个 "感觉"，这也是检查一切是否合理的好方法。

下面是一个来自房地产数据集的例子。

Real Estate Dataset Example Observations

显示数据集中的例子的目的不是为了进行严格的分析。相反，它是为了对数据集有一个定性的 "感觉"。

接下来，绘制数字特征的分布图会很有启发性。通常情况下，一个快速和肮脏的直方图网格就足以了解分布情况。

Histogram Grid

这里有一些需要注意的地方。

在这一点上，你应该开始记录你想做的潜在修正。如果有些东西看起来不对劲，比如你的某个特征中存在潜在的异常值，现在是询问客户/主要利益相关者的好时机，或者再深入挖掘一下。

然而，我们将等到数据清理时再进行修复，这样我们就可以保持我们的步骤有条不紊。

分类特征不能通过直方图进行可视化。相反，你可以使用柱状图。特别是，你要注意稀疏类，也就是观察数非常少的类。

顺便说一下，一个"类 "只是一个分类特征的唯一值。例如，下面的柱状图显示了一个叫做"外部墙体 "的特征的分布。因此，木墙板、砖和石膏是该特征的每个类。

Bar Plots

总之，回到稀疏类，正如你所看到的，'exterior_walls' 的一些类有很短的条形图。这些是稀疏类。

在建立模型时，它们往往是有问题的。

因此，我们建议做一个记录，以便以后合并或重新分配其中的一些类。我们更倾向于将其保存到特征工程中。

分段是观察分类特征和数字特征之间关系的有力方法。箱形图允许你这样做。

Box Plot Segmentation

以下是你可以从以下图表中得出的一些见解。

最后，相关关系允许你看一下数字特征和其他数字特征之间的关系。

相关性是一个介于-1和1之间的数值，它代表了两个特征统一运动的密切程度。你不需要记住计算它们的数学方法。只要知道以下的直觉就可以了。

相关性热图帮助你直观地了解这些信息。下面是一个例子（注意：所有的相关性都乘以100）。

Correlations Heatmap

一般来说，你应该注意的是

同样，你的目的是获得关于数据的直觉，这将有助于你在整个工作流程的其余部分。