「这是我参与11月更文挑战的第7天,活动详情查看:2021最后一次更文挑战」。
如果在学习或者工作中需要使用Python分析某个Excel表格数据,可以用pandas模块中的read_excel函数,本次介绍如何读取电子表格数据。首先,介绍该函数的用法以及几个重要参数的含义。
index_col=None,name=None,parse_cols=None,parse_dates=False,
na_values=None,thousands=None,convert_float=True)
参数解释:
io:制定电子表格的具体路径。
sheetname:指定需要读取电子表格的第一个Sheet,既可以传递整数也可以传递具体的sheet名称。
header:是否需要将数据集的第一行用作表头,默认为是需要的。
skiprows:读取数据时,指定指定跳过的开始行数。
skip_footer:读取数据时,指定指定跳过的末尾行数。
index_col:指定哪些列用作数据框的行索引(标签)。
names:如果原数据集中没有字段,可以通过该参数在数据读取时给数据框添加具体的表头。
parse_cols:指定需要解析的字段。
parse_dates:如果参数值为True,则尝试解析数据框的行索引;如果参数为列表,则尝试解析对应的日期列;如果参数为嵌套列表,则将某些列合并为日期列;如果参数为字典,则解析对应的列(字典中的值),并生成新的字段名(字典中的键)。
na_values:指定原始数据中哪些特殊值代表了缺失值。
thousands:指定原始数据集中的千分位符。
convert_float:默认将所有的数值型字段转换为浮点型字段。
converts:通过字典的形式,指定某些列需要转换的形式。通过该参数可以指定某些变量需要转换的函数。
读取数据时需要注意两点:
①读取数据时设置好具体的表头。
②如果数据集的第一列是字符型的字段,如何避免数据读入时自动变成字段。