本文简单列举Pandas数据分析过程中常用的函数,套路一切
import pandas as pd
#读入某个数据文件,跳过某些行,读取多少行,对列名进行定义
df = pd.read_csv('data.csv',skip_rows=[0,2],nrows=100000,names=['id','location'])
#查看数据的长和宽
df.shape()
# 对df数据进行预览,顾名思义hhh
df.head(10)
df.sample(10)
df.tail(10)
#缺失值预览
df.isnull().sum()
#去除重复值
df.drop_duplicates()
df.drop_duplicates(subset=['key1','key2'],inplace=True)
#数据总览
df.describe()
#对某列数据总览
df['location'].describe()
#对某列数据进行统计
vc = df.location.value_counts()
vc.index
vc.values
#查找某列的对应值
df[df.location=='海北']
df[df.location.isin(['海北','海南'])]
#新增某列,并对某一列做一点小改变
df['coming']=df['location'].map(lambda x:str(x)+'我来了')
#删除某列 我不去了
del df['coming']
#分组并统计
df.groupby(['id','location']).count()
df.groupby(['id','location']).location.mean()
#合并两张表
df.merge(df2,on=['key1','key2'])