Pandas对文件的读取 | 更文挑战

304 阅读2分钟

“这是我参与更文挑战的第4天,活动详情查看: 更文挑战

通过pandas库可以从多种数据文件中读取数据,也可以将获得的数据写入这些文件中。本文以Excel工作簿和CSV文件为例讲解如何进行文件的读取和写入。

1.文件的读取

以下代码用于读取Excel工作簿中的数据。

import pandas as pd
data = pd.read_excel('data.xlsx')

这里的Excel工作簿文件扩展名为.xlsx,如果是2003版或更早版本的Excel工作簿文件,其扩展名为.xls。

read_excel()函数还可以设定更多参数,演示代码如下。

data = pd.read_excel('data.xlsx',sheet_name=0,encoding='utf-8')

这里简单介绍几个比较常用的参数:sheet_name用于指定要读取的工作表,可以是工作表名称,也可以是数字(默认为0,即第1个工作表);encoding用于指定文件编码方式,一般设置为“utf-8”或“gbk”,以避免中文乱码;index_col用于设置某一列为行索引。

除了读取Excel工作簿,pandas库还可以读取CSV文件。CSV文件本质上是一个文本文件,它仅存储数据,不能像Excel工作簿那样存储格式、公式、宏等信息,所以所占存储空间通常较小。CSV文件一般用逗号分隔一系列值,既可以用Excel打开,也可以用文本编辑器(如“记事本”)打开。

以下代码用于读取CSV文件。

data = pd.read_csv('data.csv',delimiter=',',encoding='utf-8')

delimiter参数用于指定CSV文件中的分隔符号,默认为逗号;encoding参数用于指定编码方式,一般设置为“utf-8”或“gbk”,以避免中文乱码。此外,read_csv()函数也可以通过index_col参数设置索引列。

2.文件的写入

以下代码可以将数据写入Excel工作簿.

data=pd.DataFrame([[1,2],[3,4],[5,6]]columns=['A列','B列')
data.to_excel('data_new.xlsx')

这里的文件存储路径使用的是相对路径,可以根据需要写成绝对路径。运行之后将在代码文件所在的文件夹生成一个“data_new.xlsx”文件.

补充知识点:文件相对路径与绝对路径

相对路径

相对路径即代码文件所在的文件夹。例如,data.to_excel('data.xlsx')就是在代码文件所在的文件夹中生成Excel工作簿。

绝对路径

绝对路径即文件的完整路径。