本文已参与「新人创作礼」活动,一起开启掘金创作之路。
目录
一.Pandas简介
一般使用如下语句导入:import pandas as pd
Pandas是基于NumPy 的一种工具,提供了一套名为DataFrame的数据结构,比较契合统计分析中的表结构,可用Numpy或其它方式进行计算
二.Pandas创建
创建Series:pd.Series=(data,index),Series是一维数组
创建DataFrame:pd.DataFrame(data,index,colums),也可以传递一个字典结构来填充data和colums,DataFrame类似于二维表格,简称df
三.Pandas基本使用
查看df头尾行:df.head(i),df.tail(i),如不填参数则分别返回除了前五行/倒数前五行的内容
查看索引/列/数据:df.index,df.colums,df.values
快速统计汇总:df.descrbe()
数据转置:df.T
按轴排序:df.sort_index(axis=0,ascending=True)
按值排序:df.sort_values(colums,axis=0,ascending=Ture)
获取:df['columnname']或df.columnname,会返回某列
通过条件选取某列:df = df[df('columns') == 'a']
对行切片:df[start:stop:step],利用df[n:n+1]即可获取某行
通过标签选择某行:df.loc[index,columname]
通过位置选择某行:df.iloc[indexpos,columnpos],df.iloc[i,:]可获取一行,df.iloc[:,i]可获取一列
布尔索引:df[bool],可以对单独的列进行判定,也可以对整个DataFrame进行判定
在pandas中使用np.nan代替缺失值,这些值不会被包含在计算中
对index和columns进行增删改:df.reindex(index,columns)
去掉含有缺失值的行:df.dropna(how='any'),可以选择how='all'只去掉所有值均缺失的行
补充缺失值:df.fillna(value)
数据应用:df.apply(func),可以是现有函数也可以是lambda函数
连接:pd.contact(obj),obj可以是Series,DataFrame,Panel
合并:pd.merge(left,right)
追加:df.append(data)
分组:df.groupby(columnname).func(),通常为分组/执行函数/组合结果
时间:pandas有着重采样等丰富的时间操作
写入CSV文件:df.to_csv(filename)
读取CSV文件:df.read_csv(filename),结果为DataFrame
四.Pandas知识补充
非常全面的Pandas入门教程
别找了,这是 Pandas 最详细教程了