携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第2天,点击查看活动详情
pandas库是python中几乎最长使用的库,其功能非常多。这里只记录下pandas对Excel文件的简单操作;
pandas介绍
Pandas是xlwt,xlrd库的封装库,拥有更全面的操作对象,csv,excel,dataframe等等。在xlwt等读写库的基础上实现一个库操作不同格式的文件。所以pandas依赖处理Excel的xlrd模块;
简单来说:pandas是库的封装库,功能更强大
pandas安装
推荐使用pip安装:pip是一个包管理工具
pip install pandas
pandas简单入门:
-
导入pandas
import pandas as pd
-
pandas中最重要的类型DataFrame的介绍:
DataFrame 是 Pandas 中的一种抽象数据对象(表格类型),Excel 中的数据都可以转换为 DataFrame 对象。
DataFrame 和 Excel 的属性 DataFrame sheet 页 Series 列 Index 行号 row 行 NaN 空单元格
-
简单读数据 1、读取文件,从第一行开始读,读取第一个sheet data = pd.read_excel('urpan.xlsx',header=0)
读文件时传递参数介绍:
io:待读取数据的文件 sheet_name: 指定读取该excel中具体哪个表的数据,默认为0,即为第一个表。如果传入1,则为第2个表;可指定传入表名,如"Sheet1"; 也可传入多个表,如[0,‘Sheet3’],传入第一个表和名为’Sheet3’的表。 header: 指定作为列名的行,默认0,即取第一行的值为列名。数据为列名行以下的数据;若数据不含列名,则设定 header = None。 names: 默认为None,要使用的列名列表,如不包含标题行,应显示传递header=None index_col: 指定某一列作为,为索引列 usecols: 读取固定的列,usecols=‘A:C, F’,读取A到C,和F列: #读取文件,从第一行开始读,读取第一个sheet data = pd.read_excel('H:/urpan.xlsx',header=0) print(data.head(3)) print(data['year']) print(data.index) # 查看索引 RangeIndex(start=0, stop=26, step=1) print(data.values) # 查看数值( print(data.shape) # 查看行数、列数 (26, 6) print(data.head( 5 )) # 查看前5行 print(data.tail( 3 )) # 查看后3行 -
写文件简单入门
def write(): '''''' data = {'x':[1,2,3],'y':[4,5,6]} #转换成dataFrame df = pd.DataFrame(data) #生成文件 df.to_excel('H:/df.xlsx',sheet_name="df",index=True)
write()