缺失值的认定与操作
查看缺失值
df.isnull().sum()
df.info()
删除缺失值
df.dropna()#删除缺失值所在行
df.dropna(1)#删除缺失值所在列
df.dropna(how='all')# 删除所有值都缺失的行
df.dropna(thresh=2)# 删除至少有两个缺失值的行
df.dropna(subset=['name', 'born'])# 指定判断缺失值的列范围
填充缺失值
df.fillna(a)
重复值
重复值的识别
df.duplicated()
df[df.duplicated()]#筛选出重复内容
重复值的删除
df.drop_duplicates()
数据分组
对于某些连续型数据,需要将其离散化以便于分析,例如将百分数成绩分为优、良、中、及格和不及格五档
pd.cut()
数据筛选——即实现excel中的筛选功能
df['Q1'].value_counts()#查看Q1列的类别名及个数
文本变量转换
方法一:replace
方法二:map
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})