R中的数据集

147 阅读5分钟

DataSet in R

R语言中的数据集的定义

R语言中的数据集被定义为RStudio中包中的一个中心位置,来自不同来源的数据被存储、管理并可供使用。在当今的大数据世界中,如何找到干净、可靠且数据集的元数据易于解释的数据一直是一个挑战。RStudio是一个集成开发环境,使开发者能够通过编程建立图形和统计计算的统计模型。

R中的数据集以RStudio应用程序的格式出现,为所需用例提供所需的可用性。市场上有两种格式,一种是RStudio桌面,另一种是RStudio服务器。数据集的描述与格式无关,因此适用于人们正在使用的任何版本。

如何将数据集读入R?

数据集可以有两种类型,每一种都有各自的读取数据集的方式。第一种是预先存储在RStudio中的数据集,开发人员可以直接访问,而另一方面,还有一种数据集的形式,可以以原始格式存在,即excel、csv、数据库等。在这里,我们将逐一研究这些单独的方法。在RStudio软件包中存在的数据集的背景下,我们将看到数量有限的例子,但不局限于数据集的领域。本质上,我们将分别研究满足分类和回归问题的数据集。

从软件包中预先定义的数据集中。

大多数数据集已经可以通过RStudio软件包获得,存在于名为 "UCI机器学习 "的存储库中。这些数据集之所以如此受欢迎,是因为有以下特性。

  • 人们可以快速下载数据集。
  • 这些数据集很小,因此可以装入内存。
  • 这些数据集大多是经过清理的,因此可以避免数据清理过程,人们可以迅速跳到这些数据集上快速运行算法。

这些软件包的存在,使得开发人员可以通过R综合档案网络(CRAN)的桥梁,方便地下载并在项目中使用它们,CRAN允许这些第三方库下载并保持存储在RStudio包中的模块。

让我们看看一些对数据科学从业者来说最有名的数据集。

1.数据集库

这个库包括与RStudio的基本版本一起加载,因此不需要加载库。有各种库作为这个捆绑包的一部分。查看该库中的各种数据集的方法之一是执行以下命令。

代码。

library(help = "datasets")

2.虹膜数据集

这个数据集包含了基于花的不同特征集和测量的鸢尾花的品种。有三种类型的品种,通过4个特征集进行分类,即萼片长度、萼片宽度、花瓣长度和花瓣宽度。加载数据集可以通过执行以下命令进行。

代码。

data(iris)

这个数据被广泛用于尝试满足多类分类问题的算法。

3.朗利的经济数据集

这个数据集包含了在某一年中根据各种经济指标而就业的人的百分比。在 "就业 "一栏中,有6个不同的属性来解释就业人数的百分比,将来人们可以根据经济指标来预测某一年可能就业的人数百分比。加载数据集可以通过执行以下命令来进行。

代码。

data(longley)

这个数据被广泛用于尝试满足回归问题类型的算法。

4. mlbench库

这个库包括与各种现实世界的基准问题有关的数据。人们可以通过执行以下命令来安装这个库。

代码。

install.packages("mlbench")

加载该库可以通过执行命令来完成。

代码。

library(mlbench)

与数据集库类似,人们可以执行以下代码来获得mlbench库中所有数据集的列表。

代码。

library(help = "mlbench")

5.波士顿住房数据集

这个数据集包含了波士顿市的房屋价格,其基础是这个数据集中的13个特征。加载该数据集可以通过执行以下命令来进行。

代码。

data(BostonHousing)

这个数据被广泛用于尝试迎合回归问题的流派的算法。

6.皮马印第安人(女性)的糖尿病数据集

这个数据集包含了皮马印第安人通过8个个人属性(如葡萄糖、压力等)来了解糖尿病的存在。加载数据集可以通过执行以下命令来进行。

代码。

data(PimaIndiansDiabetes)

这个数据被广泛用于尝试迎合二元分类问题的流派的算法。

7.应用预测模型库

这个库由应用预测模型的一本著名书籍中的数据组成。人们可以通过执行以下命令来安装这个库。

代码。

install.packages("AppliedPredictiveModeling")

可以通过执行命令来加载该库。

Code:

library(AppliedPredictiveModeling)

与数据集库类似,人们可以执行以下代码来获得mlbench库中所有数据集的列表。

代码。

library(help = "AppliedPredictiveModeling")

从原始格式数据文件

数据集大多以一些原始格式存在,如csv,excel。

下面我们将看到我们如何加载数据集的方式。

CSV文件。

<- read.csv("<文件的名称和扩展名>")

Excel文件(最流行的方式)。

df_excel <- read.xlsx("<文件名和扩展名>", sheetIndex = <需要加载的工作表的索引>)

结语

随着本文的结束,我们已经了解了在RStudio背景下最流行的数据集。人们可以通过查阅相应数据集的文档,轻松了解库中提到的其他数据集。

推荐的文章

这是一份关于R中的数据集的指南。这里我们分别讨论了介绍、如何将数据集读入R中以及从原始格式的数据文件中读取数据集。你也可以看看下面的文章,以了解更多信息。

  1. 什么是R编程语言?
  2. 数据链路层协议
  3. R程序的功能
  4. 数据科学应用