缺失值的认定与操作

df.isnull().sum()

df.info()

df.dropna()#删除缺失值所在行

df.dropna(1)#删除缺失值所在列

df.dropna(how='all')# 删除所有值都缺失的行

df.dropna(thresh=2)# 删除至少有两个缺失值的行

df.dropna(subset=['name', 'born'])# 指定判断缺失值的列范围

df.fillna(a)

重复值

df.duplicated()

df[df.duplicated()]#筛选出重复内容

df.drop_duplicates()

对于某些连续型数据，需要将其离散化以便于分析，例如将百分数成绩分为优、良、中、及格和不及格五档

pd.cut()

df['Q1'].value_counts()#查看Q1列的类别名及个数

方法一：replace

方法二：map

df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})