“这是我参与更文挑战的第4天,活动详情查看: 更文挑战”
通过pandas库可以从多种数据文件中读取数据,也可以将获得的数据写入这些文件中。本文以Excel工作簿和CSV文件为例讲解如何进行文件的读取和写入。
1.文件的读取
以下代码用于读取Excel工作簿中的数据。
import pandas as pd
data = pd.read_excel('data.xlsx')
这里的Excel工作簿文件扩展名为.xlsx,如果是2003版或更早版本的Excel工作簿文件,其扩展名为.xls。
read_excel()函数还可以设定更多参数,演示代码如下。
data = pd.read_excel('data.xlsx',sheet_name=0,encoding='utf-8')
这里简单介绍几个比较常用的参数:sheet_name用于指定要读取的工作表,可以是工作表名称,也可以是数字(默认为0,即第1个工作表);encoding用于指定文件编码方式,一般设置为“utf-8”或“gbk”,以避免中文乱码;index_col用于设置某一列为行索引。
除了读取Excel工作簿,pandas库还可以读取CSV文件。CSV文件本质上是一个文本文件,它仅存储数据,不能像Excel工作簿那样存储格式、公式、宏等信息,所以所占存储空间通常较小。CSV文件一般用逗号分隔一系列值,既可以用Excel打开,也可以用文本编辑器(如“记事本”)打开。
以下代码用于读取CSV文件。
data = pd.read_csv('data.csv',delimiter=',',encoding='utf-8')
delimiter参数用于指定CSV文件中的分隔符号,默认为逗号;encoding参数用于指定编码方式,一般设置为“utf-8”或“gbk”,以避免中文乱码。此外,read_csv()函数也可以通过index_col参数设置索引列。
2.文件的写入
以下代码可以将数据写入Excel工作簿.
data=pd.DataFrame([[1,2],[3,4],[5,6]]columns=['A列','B列')
data.to_excel('data_new.xlsx')
这里的文件存储路径使用的是相对路径,可以根据需要写成绝对路径。运行之后将在代码文件所在的文件夹生成一个“data_new.xlsx”文件.
补充知识点:文件相对路径与绝对路径
相对路径
相对路径即代码文件所在的文件夹。例如,data.to_excel('data.xlsx')就是在代码文件所在的文件夹中生成Excel工作簿。
绝对路径
绝对路径即文件的完整路径。