Pearson Correlation - 在Python中实现Pearson Correlation的教程

454 阅读2分钟

在本教程中,我将指导你完成Pearson Correlation的Python实现。当两个或多个特征以这样的方式联系在一起时,当一个特征的值增加或减少时,另一个特征的值也同样增加或减少。这就是 "相关 " 一词的含义。


相关性简介

寻找变量之间的联系就是相关性的意义所在。在数据科学中,我们利用相关性来发现相互之间有利和不利的特征,以便我们可以使用最佳特征来训练机器学习模型。

相关性的程度从-1到1不等:

  1. 特征 之间的相关性为1时,特征之间是正向关联 的。
  2. 当特征之间的关联度为-1时,特征之间是负相关 的。
  3. 特征之间的相关度等于零时,我们可以得出结论,特征之间没有关联

皮尔逊相关的介绍

皮尔逊相关是一种确定两个或多个特征之间线性关系强度的统计方法。

皮尔逊相关的最好例子之一是需求和供应。例如,当对一种产品的需求增长时,该产品的供应就会增加,而当对该产品的需求减少时,该产品的供应就会减少。 一个产品的需求和供应之间存在着正相关

皮尔逊相关的公式

Pearson Correlation Formula

皮尔逊相关公式


在Python中实现皮尔逊相关

为了观察相关性,我们需要遵循一些步骤,这些步骤描述如下。

第1步 - 导入模块和加载数据集

任何程序的第一步都是加载必要的模块(如果需要)。对于这个程序,我们需要导入pandas 模块。稍后,我们将使用read_csv 函数加载数据集。你可以在这里找到该数据集。

import pandas as pd
movies = pd.read_csv("MoviesOnStreamingPlatforms_updated.csv")

第2步--寻找所有特征之间的关联性

为了找到相关性,我们将使用corr 函数,并将method 作为pearson ,因为我们的目的是找到特征之间的Pearson Correlation。

movies['Rotten Tomatoes'] = movies["Rotten Tomatoes"].str.replace("%", "").astype(float)
movies.drop("Type", inplace=True, axis=1)
correlations = movies.corr(method='pearson')

第3步--相关性的可视化

为了实现相关性的可视化,我们将使用seaborn ,并导入seabornmatplotlib 模块。最后,我们利用heatmap 函数并传递我们在上一步创建的相关关系。

import seaborn as sns
import matplotlib.pyplot as plt
sns.heatmap(correlations)
plt.show()

Pearson Correlation Visualization

皮尔逊相关关系的可视化


我希望你喜欢这个关于Pearson Correlation及其Python实现的教程。