Correlation analysis

571 阅读10分钟

相关性分析是统计学中的一项重要工具,用于研究两个或多个变量之间的关系。下面列举几种最常用的相关性分析算法:

  1. Pearson相关性分析:也称为线性相关性分析,是最常用的相关性分析方法之一。它通过计算两个变量之间的协方差和标准差,得出它们之间的相关系数。相关系数的取值在-1到1之间,绝对值越大表示相关程度越高,正负号表示相关方向。

  2. Spearman相关性分析:也称为秩相关性分析,适用于非线性关系和排名数据。它将原始数据转化为等级数据,然后计算等级数据之间的Pearson相关系数,从而得出它们之间的Spearman相关系数。Spearman相关系数的取值范围也在-1到1之间。

  3. Kendall相关性分析:也是一种秩相关性分析方法,适用于非线性关系和排名数据。它通过比较数据点的顺序,计算它们之间的“顺序协调度”,从而得出它们之间的Kendall相关系数。Kendall相关系数的取值也在-1到1之间。

  4. 判别分析:判别分析是一种常见的分类算法,用于将数据点分为两个或多个组别。它通过计算各个组别之间的差异和方差,找到最佳分割线或平面,从而实现分类效果的最优化。

  5. 主成分分析:主成分分析是一种常见的降维算法,也可用于相关性分析。它通过对原始数据进行变换,将高维度数据压缩到低维度空间中,然后计算各个主成分之间的相关系数,以研究它们之间的关系。

需要根据实际需求和数据类型选择合适的相关性分析方法,并进行必要的预处理和后处理操作,以获得更好的结果。

一、灰色关联分析

1.1 背景

灰色关联分析是一种数据分析方法,它主要用于研究某些因素之间的关联性。该方法最初由中国科学家徐凯发明,并在20世纪80年代得到了广泛应用。

灰色关联分析(Grey Relational Analysis,GRA)是一种常用的多因素评价方法,主要用于处理多个因素之间存在线性或非线性相关性的情况。GRA在实际应用中具有很强的可解释性和适应性,特别适用于小样本、高维度的决策问题。

为什么叫灰色?这是因为GRA最早是由中国科学家徐建华于1982年提出,并借鉴了灰色系统理论中的“灰色关联度”概念。所谓灰色关联度,是指在一定条件下,某两个对象之间的相似程度。在GRA中,将多个因素看作不同的对象,通过计算它们之间的灰色关联度,来评价它们之间的影响程度和相互关系。

1.2 原理流程

具体地,GRA的步骤如下:

  1. 数据预处理:根据实际问题选择合适的因素指标,并对数据进行标准化处理,使每个因素的取值范围相同。

  2. 确定参考序列:将要评估的各因素与一个已知的参考序列进行比较,以确定它们之间的关联程度。这里需要选择一个合适的参考序列,通常选取其中排名靠前的因素作为参考序列。

  3. 计算关联系数:将各因素与参考序列之间的差距进行标准化,得到一组灰色关联度数据。具体计算方法包括相关系数法、距离法、均值法等。

  4. 确定权重:根据实际需求和专家经验,对各因素进行加权,得到最终权重向量。

  5. 综合评价:将各因素的灰色关联度乘以它们的权重,并将结果累加,得到各个方案的综合评价值。评价值越大表示方案越优。

需要注意的是,在GRA中,不同因素之间的关系被看作是灰色的,即存在不确定性和模糊性。因此,在使用GRA时需要根据实际情况选择合适的计算方法和参数,并进行必要的灵活调整。

GRA的计算公式主要包括关联系数的计算和综合评价值的计算,下面分别介绍。

  1. 关联系数的计算

在GRA中,常用的关联系数计算方法有三种:相关系数法、距离法和均值法。这里以相关系数法为例进行说明。

(1)将原始数据进行标准化处理,即将各因素的数据范围缩放到0~1之间。

(2)设原始数据矩阵为Xm×nX_{m\times n},参考序列矩阵为Y1×nY_{1\times n},则各因素与参考序列之间的关联系数ρi(i=1,2,,m)\rho_i(i=1,2,\dots,m)可以通过计算它们的相关系数得到:

ρi=j=1n(xijxi)(yjy)j=1n(xijxi)2j=1n(yjy)2\rho_i=\frac{\sum_{j=1}^n(x_{ij}-\overline{x_i})(y_j-\overline{y})}{\sqrt{\sum_{j=1}^n(x_{ij}-\overline{x_i})^2}\sqrt{\sum_{j=1}^n(y_j-\overline{y})^2}}

其中,xi\overline{x_i}y\overline{y}分别表示第ii个因素和参考序列的平均值。

(3)对于非线性相关性问题,也可以使用其他关联系数计算方法,如距离法和均值法。距离法中常用的是欧氏距离和曼哈顿距离,均值法中常用的是夹角余弦和广义平均值等方法。

  1. 综合评价值的计算

将各因素的关联系数乘以它们的权重,并将结果累加,即可得到各个方案的综合评价值。设第ii个方案的综合评价值为SiS_i,则:

Si=j=1mwjρijS_i=\sum_{j=1}^m w_j\rho_{ij}

其中,wjw_j表示第jj个因素的权重。

需要注意的是,在实际应用中,权重的确定可能涉及主观和客观因素的综合考虑,可以采用层次分析法、模糊综合评判法等方法进行处理。

总之,灰色关联分析是一种可靠的多因素评价方法,可以用于处理多个因素之间的线性或非线性相关性问题。通过计算各因素之间的灰色关联度,并结合权重和参考序列,可以得到比较客观、全面的综合评价结果,有助于帮助决策者做出更好的决策。这种方法在经济、环保、医疗等领域都有广泛应用。

灰色关联分析主要属于数学领域,它是一种基于数学理论的数据分析方法。虽然灰色关联分析和机器学习在某些方面有些相似之处,例如都需要对数据进行处理、计算等,但两者的研究目的和方法还是有很大不同的。机器学习更多地关注如何通过算法来让计算机自动地从数据中学习,并做出预测或决策,而灰色关联分析则更多地着眼于研究不同因素之间的关联性,并用数值来量化这种关联性的强度。

二、皮尔逊相关性

1.1 背景

皮尔逊卡方检验是由英国统计学家卡尔·皮尔逊(Karl Pearson)在19世纪末开发的。这一方法最初用于分析定量数据之间的关系,后来被扩展到了分类数据的分析,成为了现代假设检验的一个基本工具。

卡方的名字来源于其统计量的形式,即将观察值与期望值之间的差异平方除以期望值再求和得到的统计量,称为卡方统计量。在独立性检验中,我们会根据观察值和期望值之间的差异来计算卡方值,进而判断两个变量是否相关联。如果卡方值越大,那么两个变量之间的关系就越强。

总之,皮尔逊卡方检验在现代假设检验中扮演着重要角色,并且它的基础理论已经被广泛应用于各种类型的数据分析中。

1.2 原理流程

皮尔逊相关系数是一种用于衡量两个变量之间线性关系强度的统计方法。它采用样本数据来估计总体相关系数,并输出一个介于-1和1之间的值,其中-1表示完全负相关,0表示没有线性相关性,1表示完全正相关。

皮尔逊卡方检验是一种常用的假设检验方法,主要用于比较样本观测值和理论预期值之间的差异。它可以测试两个变量是否相关或独立。皮尔逊卡方检验的基本思想是:将观察到的频数与理论预期频数进行比较,如果两者之间存在显著差异,则拒绝原假设。

下面是详细的步骤:

  1. 假设检验问题的建立

首先,我们需要明确所要检验的假设。以考试成绩为例,假设我们要检验学生的性别是否与其考试成绩有关系。原假设为“学生的性别与其考试成绩之间没有显著相关性”,备择假设为“学生的性别与其考试成绩之间存在显著相关性”。

  1. 收集数据并确定理论预期值

接下来,我们需要收集样本数据。在这个例子中,我们需要收集学生的性别和考试成绩数据。然后,我们需要根据样本数据计算理论预期值。理论预期值是指在原假设下,期望每个分类变量的频数分布情况。在本例中,我们将学生的性别作为分类变量,并且假设男女生的考试成绩分布相同,那么我们可以通过整个样本的平均值来计算每个性别中期望的考试成绩频数。

  1. 计算卡方值

接下来,我们需要计算卡方值。计算卡方值的公式为:χ² = Σ [(Oi - Ei)² / Ei],其中Oi是观察到的频数,Ei是理论预期频数。将所有分类变量的卡方值加起来,得到总的卡方值。

  1. 判断显著性水平

最后,我们需要根据卡方值判断结果是否显著。在进行假设检验时,我们需要设定显著性水平α,通常为0.05或0.01。如果计算出来的p值小于显著性水平,则拒绝原假设,认为有显著差异;反之,接受原假设,认为差异不显著。

总之,皮尔逊卡方检验是一种用于比较观测频数和理论预期频数之间差异的方法。它可以测试两个变量之间的相关性或独立性,并且可以用于二元变量或多元变量。

三、协方差

协方差(Covariance)是用于衡量两个随机变量之间关系强度的统计量。协方差公式如下:

cov(X, Y) = Σ[(Xᵢ - ȳ)(Yᵢ - ȳ)] / (n - 1)

其中,Xᵢ 和 Yᵢ 分别表示 X 和 Y 的第 i 个观测值,ȳ 表示 Y 的平均值,Σ 表示求和运算。请注意,上述是样本协方差的计算公式,分母是 (n - 1),而不是 n。如果你需要计算总体协方差,分母应该是 n。

该公式计算了每个样本点与其均值的偏离乘积的总和,然后除以 (n-1) 得到标准化的结果。协方差为正值表示两个变量呈正相关关系,即当一个变量增加时,另一个变量也往往增加;协方差为负值表示两个变量呈负相关关系,即当一个变量增加时,另一个变量往往减少;协方差为零表示两个变量之间没有线性相关性。(这里是指都大于均值,故相乘大于0)

需要注意的是,协方差只能测量线性相关性,不能确定因果关系,并且其值的大小并不直观地表示变量之间的关系强度