R语言机器学习入门——08

185 阅读1分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第3天,点击查看活动详情

函数介绍——R语言中的函数

使用lm()函数进行回归分析,例如研究state.x77这个数据,研究犯罪率与其他指标的关系:

首先将数据转化为数据框,因为lm()函数只能对数据框进行操作

state <- as.data.frame(state.x77[,c('Murder','Population','Illiteracy','Income','Frost')])

再使用lm()函数进行回归分析,研究人口、文盲率、收入以及天气对犯罪率的影响:

fit <- lm(Murder ~ Population+Illiteracy+Income+Frost,data=state)

使用summary()得出统计结果

summary(fit)

后面的*代表数据的显著性,数据中,文盲率的回归系数是4.14,表示其他数据不变时,文盲率上升1%,则犯罪率上升4.14%,且回归系数在p<0.001的情况下,显著不为0,也就是显著。而如果数据不显著,则说明两者没有直接关系。

R函数的返回值:

ls()返回当前环境中的对象,也就是有多少变量

sys.date()返回当前系统时间

rm()删除指定的变量,但是这个函数是直接删除,不会有返回

使用函数要注意输入数据的格式

可以使用help()函数查看每个函数的帮助文档

函数介绍——函数的选项参数

一般函数的选项参数可以分成三个部分:输入控制部分;输出控制部分;调节部分

输入控制部分负责告诉用户函数能接受哪种类型的数据,这个选项参数往往出现在函数的第一位,比如说,有些函数的第一位选项参数是“file”说明使用这个函数你需要输入一个文件;如果是“data”则是需要输入一个数据框;“x”代表单独的一个对象,一般都是向量,也可以是矩阵或者列表;“x和y”代表函数需要两个输入变量;“x、y、z”函数需要三个输入变量;“formula”输入的是公式;(具体查看每个函数的帮助文档)

输出控制部分

调节参数:

选项接受哪些参数:

函数介绍——数学统计函数

(1)概率函数

概率论是统计学的基础,R有许多用于处理概率,概率分布以及随机变量的函数,R对每一个概率分布都有一个简称,这个名称用于识别与分布相联系的函数,这部分涉及到很多统计学基础的理论知识,比如随机试验、样本空间、对立与互斥、随机事件与必然事件、概率密度、概率分布等。

R中的概率函数(正态分布):d前缀—概率密度函数;P前缀—概率分布函数;q前缀—分位数函数(分布函数的反函数);r前缀—产生相同分布的随机数

Norm表示正态分布

例如生成一组符合正态分布的随机数,这组数据均值为15,标准差为2,总共100个数据:

> rnorm(n=100,mean = 15,sd=2)

R中的概率函数(离散分布):同样的道理,在这些分布缩写前面加上d、p、q、r就变成函数

这些分布函数可以帮助我们在R中绘制各种分布函数图。

R中如何生成随机数:

最简单的是runif()函数,可以生成0-1之间的随机数

生成50个0-1之间的随机数

> runif(50)

如果想生成0-1之外的随机数,可以通过修改选项参数来更改

runif(50,min=1,max = 100)

这样就能生成1-100以内的随机数了

Set.seed()函数可以绑定随机数,当输入Set.seed()函数时,回到最初的随机数:

每个Set.seed()号码对应的随机数是相同的,这个功能主要是可以在研究发表时重现随机分组,以保证在不同设备上也能独立获得相同的结果。