R语言机器学习入门——11

961 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第4天,点击查看活动详情

函数介绍——相关性检验函数

在进行相关性分析之后,对相关性进行检验,cor.test()函数可用于相关性的检验,该函数有四个比较重要的选项参数,其中x和y是需要检测的相关性变量,alternative是用来指定进行双侧检验还是单侧检验,two.sided代表分别检测正负相关性,greater代表正相关,less代表负相关。Method选项用于指定用哪种相关系数,可选的有pearson相关系数、spearman相关系数、kendall相关系数。

我们使用state.x77数据检测一下谋杀率与文盲率之间的关系

cor.test(state.x77[,3],state.x77[,5])

置信区间:confidential interval,是指样本统计量所构造的总体参数的估计区间,在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计,置信区间展现的是这个参数的真实值有一定的概率落在测量结果周围的程度,置信区间给出的是被测量参数的测量值的可信程度(也就是说,光给出概率还不行,还要给出概率发生的范围)

Cor.test()只能一次性检测一组变量的关系,psych包中的corr.test()函数可以一次性进行多个变量的检验,这个函数还可以进行递归操作

corr.test(state.x77)

函数不仅计算了相关系数,还隔出了检测值:

如果想进行偏相关系数的检验,可以使用ggm包中的pcor.test()函数,先计算偏相关系数

pcor(c(1,5,2,3,6),cov(state.x77))

其中,x是pcor()函数计算的偏相关系数,然后是要控制的变量数,最后就是样本数

x <- pcor(c(1,5,2,3,6),cov(state.x77))
pcor.test(x,3,50)

返回三个值,分别是t检验,自由度和p value

分组数据的相关性检验,这种分组的检验可以使用t检验,t检验使用t分布理论,推论差异分布的概率,从而比较两个平均数的差异是否显著。主要用于样本含量较小,一般小于30个,总体标准差未知的正态分布数据

这里我们使用MASS包中的UScrime数据集,它包含了1960年美国47各州的刑罚制度对犯罪率的影响。

首先使用t.test()进行独立样本的t检验,t.test(y~x),y是一个数值型变量,x是类别型变量,

t.test(Prob ~ So,data = UScrime)

P<0.05,因此可以拒绝南方各州北方各州拥有相同犯罪率的假设。

如果不满足正态分布,就需要用非参数的方法,非参数检验在总体方差未知或者知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法,由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数检验”

参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法,也就是数据分布已知,比如满足正态分布