随着对 "大 "数据的热衷,分析工具已得到普及。在本指南中,我将展示如何从文本文件、CSV文件和数据库中提取数据。然后我将展示如何将这些数据发送到网络服务器上。
你可能会想,**我需要重新学习一门新的语言吗?**答案是不需要。你所需要知道的只是一些命令。
来自不同背景的程序员,用各种编程语言从事网络应用的工作,可以将数据导入R,并在处理后,以他们需要的格式导出。
注意:如果你对R不熟悉,我推荐SitePoint关于如何安装R和RStudio的文章。它提供了R的基本命令和该语言的一般介绍。这篇文章涵盖了可以在R终端上运行的命令,而不需要使用RStudio IDE。然而,在终端上处理大型数据集对初学者来说可能会很困难,所以我建议使用RStudio以获得丰富的经验。在RStudio中,你可以在Console框中运行相同的命令。
处理文本文件
可以使用稍加修改的read.table 命令来读取本地机器上的文本文件。因为它是为读取表格而设计的,你可以将分隔符设置为一个空字符串(""),以逐行读取文本文件。
file_contents = read.table("<path_to_file>", sep = "")
注意:在你看到斜角括号的地方,如<path_to_file> ,插入必要的数字、标识符等,不要有括号。
文件的路径也可以是文件的相对路径。如果你的行有不等长,你也要设置fill = TRUE 。这个命令的输出是一个R语言的数据框。
如果你的文件太大,无法一次性读取,你可以尝试使用skip 和nrow 选项分步读取。例如,要读取文件中的第6-10行,运行以下命令。
connection <- file("<path_to_file>")
lines6_10 = read.table(connection, skip=5, nrow=5) # 6-10 lines
继续阅读如何在R语言中导入数据和导出结果onSitePoint.