pandas模块(二)读取与操作数据

154 阅读1分钟

import pandas as pd

一、读取数据

文本文件

pd.read_csv(参数1,sep参数,encoding参数)

参数1为文件路径  sep参数为分隔符  encoding参数为编码格式(存取的时候用的编码方式和读取的必须一致)

表格文件

pd.read_table(参数1,sep参数,encoding参数)

ps:必须指定sep参数

excel文件(xls,xlsx)

pd.read_excel(路径参数)

保存文件

保存为csv文件

numpy数据.to_csv(文件路径,index参数)

index参数=False  取消行索引

保存问excel文件

numpy数据.to_excel(文件路径,index参数)

二、数据操作

用pf作为读取出来的数据

获取某一列数据

打印 pf.columns 查看所有行索引名称

pf[行索引名称]  返回series结构 其中一列

切片查找

data = pf[行索引]

data[:5]  前五行   data.head()  

data[-5:] 后五行 data.tail()

data[10:21] 第十行到第二十行

获取多列数据

pf[[行索引1,行索引2,行索引3]][:10]   三行十列

同时筛选行和列

pf.loc[行名称,列名称]

pf.iloc[行下标,列下标]

pf.ix[行名称,列名称]  pf.ix[行下标,列名称]  pf.ix[行名称,列下标]