R 数据的预处理：数据的读写比较两种写入方式write.*(),write_()write.csvwrite_csv可以

比较两种写入方式 write. *(), write_()

# 先简单建个数据框
# 产生一组随机数，从0～1 共10^6个，共1000rows
readFile = as.data.frame(matrix(runif(10 ^ 6 ,0,1), nrow=1000)) 

# 如果设定的名字不变，重复写入的时候，新档会覆盖旧档
# 比较两种写法的速度

write.csv

system.time({ rnum = write.csv(test,"test.csv")}) 
 # 查看一下写入的文档大小
file.info("rnum.csv")$size

write_csv

# 删除变量，方便再次读取
rm(rnum) 
# 先载入readr包
library(readr)
system.time({ rnum = write_csv(test,"test.csv")})

# 结果
# write.csv()
#   user  system elapsed 
# 1.017   0.039   1.065 
# write_csv()
#  user  system elapsed 
# 0.248   0.027   0.28

可以看出来readr包中的write_csv()明显要快于write.csv()，这在写入较大文件时则会更为明显。

比较三种读取方式 read.*(), fread, readr

read.csv

# 查看read.csv的读取速度
system.time({rnum = read.csv(file = "rnum.csv", header=T)})

fread

# 删除变量
rm(rnum) 
# data.table包中的fread读取资料
library("data.table") 
system.time({ rnum = fread(input="rnum.csv")})

read_csv

# 删除变量
rm(rnum) 
# readr包中的read_*来读取资料，写入的话用write_*
system.time({ rnum = read_csv("rnum.csv")})

# 结果
#  read.csv
#  user  system elapsed 
#   2.427   0.044   2.479 
#  fread
#    user  system elapsed 
#   0.082   0.007   0.089 
#  read_csv
#    user  system elapsed 
#   0.760   0.043   0.837

可以看出读取速度最快的就是fread，其次是read_csv。

备注：

“用户”是消耗在应用程序（非操作系统部分）执行的时间。

“系统”是底层操作系统执行（例如磁盘读写等）部分的时间。

“流逝”是经过的总时间（可以认为是前两者的总和）。一般优化时主要关注“用户”的时间。

【数据小盐罐儿】一个无聊的数据分析公众号，不过时常会有一些脑洞的实例分析。让我们一起学习，打通各种技能！

file

本文由博客一文多发平台 OpenWrite 发布！