探索性 数据分析是彻底了解数据的关键特征并从统计学上了解每个特征的重要性的过程。顾名思义,探索性数据分析有助于从统计学角度探索数据,并根据需要制定某些假设。一般来说,探索性数据分析被认为是一项繁琐的任务,而这正是LUX通过将整个探索性数据分析自动化为一个单一步骤而铺平道路的地方。因此,在这篇文章中,让我们看看如何使用LUX pythonAPI来执行探索性数据分析。
目录
- 自动化EDA的需要
- 使用LUX实现EDA自动化
- LUX python API的实现
- 最后的话
在开始使用LUX环境之前,让我们首先讨论一下自动化EDA的需求。
自动化EDA的必要性
探索性数据分析是一个分析数据集的过程,以总结特征的重要统计意义,并通过适当的视觉效果将每个特征的传播可视化。但是,当数据集中有许多特征时,可视化每个特征是一项繁琐的任务,因为检查每个特征的相关性将是一个漫长的过程。因此,这就是自动化EDA的过程,在减少数据分析的整体时间,以及在优化特征选择和异常值分析上所花费的时间方面发挥了重要作用。
你是否在寻找数据科学中使用的Python库的完整库。查看这里***。***
这就是探索性数据分析过程自动化的需要,探索性数据分析的自动化由各种Python库和API支持,如LUX、SweetViz、AutoViz,以及更多的API来发挥作用。在这篇文章中,让我们探讨如何使用LUX Python API来自动化探索性数据分析程序。
使用LUX实现EDA自动化
LUX是一个简单的Python API,通过在LUX激活的工作环境中读取数据帧,提供容易解释的图表,帮助快速和简单的数据探索。可视化是在一个具有各种特征标签的交互式部件中产生的,可以通过滑动来了解数据的特征。
LUX模块下支持的一些标准部件如下:
- 相关性
- 分布
- 发生率
- 地理分布
相关性小组件
相关性小组件有助于以散点图的形式分析数据的两个数字特征之间的相关性。所有的数字特征将被映射成两个特征的集合,两个特征之间的相关性可以被可视化,以便分析具有更高相关性的特征。
分布小工具
LUX python API的分布部件负责为所有的数字特征生成直方图视觉,通过直方图仓提供每个特征的计数。分布小组件主要帮助分析数字特征的频率。
发生率小组件
LUX python API的发生小组件负责通过分析数据中存在的分类特征的发生频率来生成水平条形图。对于每一个分类特征和每一类分类特征的出现频率,在出现小工具下以视觉形式提供。
地理部件
LUX API的地理小组件基本上显示了数据集中的地理位置的正方形地图。地图上每个区域的某些数字特征的平均值被计算出来,只要在地图上悬停,就可以计算出数据中每个地理位置下每个区域的平均值。
LUX python API的实现
在这里,让我们看看如何使用LUX Python API来实现探索性数据分析过程的自动化。为了利用LUX python API,我们必须首先在工作环境中安装LUX API。
!pip install lux-api
现在,在工作环境中安装了LUX API后,让我们在工作环境中导入API和pandas模块来读取数据集。
import lux
import pandas as pd
在某些工作环境中,必须通过安装相应的可视化小工具来允许某些来自API的可视化小工具。这里让我们看看如何允许LUX API在Google Colab中产生视觉效果:
from google.colab import output
output.enable_custom_widget_manager()
一旦部件被设置好,最后一步就是在工作环境中使用pandas模块读取数据集。
df=pd.read_csv('/content/drive/MyDrive/Colab notebooks/EDA using LUX/WA_Fn-UseC_-HR-Employee-Attrition.csv')
df

这就是如何通过在LUX激活的工作环境中仅仅读取数据框架,整个探索性数据分析过程就会自动化,并产生各种小工具。
相关小组件的输出解释

在上面的图片中,让我们考虑月收入和总工作时间的第一个图,我们可以看到这两个特征是如何相互关联的。
分布式小工具输出解释

在上图中,如果我们考虑第一个图,我们可以很容易地解释数据集中每个数字特征的出现频率。
出现率小工具输出解释

在上图中,如果我们考虑第一张图,我们可以清楚地看到,性能评级的特征有两个类别,我们也可以相应地分析每个类别的出现频率。
使用LUX进行自定义特征可视化
LUX没有对整个数据集进行可视化,而是灵活地分析了所需特征的特性,如下图所示。但是,对于选择的自定义特征,LUX API下支持三个新的部件,即增强、过滤和概括:
df.intent = ["YearsAtCompany","HourlyRate"]
df
因此,这里从数据中选择了两个数字特征,以了解其使用LUX API的各种特性。

因此,如果从数据集中选择所需的特征,这就是LUX API生成的可视化部件。让我们试着理解每个部件所要表达的内容。
增强小组件的输出解释

增强部件解释了数据集的额外特征如何影响所选的两个自定义变量的关系。在上面的输出中,我们可以看到HourlyRate和在公司的年数是如何与数据集的其他特征如StandardHours和Attrition相关联的。
过滤部件的输出解释

过滤部件考虑了两个自定义特征,并通过分析每个特征与从数据集中选择的自定义特征的关系,产生了各种特征子集的相关图。
概括小组件的输出解释

概括小组件只考虑所选的自定义特征,如果在特征中存在任何过滤限制,则删除,并显示所选自定义特征的直方图分布,以供分析。
使用LUX API分析地理数据
为了使用LUX API分析地理数据,使用了各州的人口数据集:
df = pd.read_csv("https://github.com/covidvis/covid19-vis/blob/master/data/interventionFootprintByState.csv?raw=True",index_col=0)
df.head()

后来,为了通过LUX API框架获得分析结果,只在工作环境中调用了数据框架实例。
df

解释地理小部件
在上面的图片中,我们可以看到,对于数据集中的各个州,各种数字特征的平均值被计算在各个州的各个区域。只要把鼠标悬停在地图上,我们就可以解释每个州的相应地区的相应数字特征的平均值。
最后的话
探索性数据分析的自动化有助于减少60%的数据清理和分析工作。通过自动化探索性数据分析,优化特征选择和检查特征之间的相关性变得很容易,由于这个原因,可以利用更多的时间为使用数据的各自任务产生更通用和可靠的模型。在各种自动化的探索性数据分析API中,Python提供的LUX就是这样一个API,通过在LUX激活的环境中读取数据,就可以获得整个数据的分析,从而从数据中产生合适的见解。