动手学数据分析pandas——TASK2:数据清洗及特征处理

291 阅读1分钟

缺失值的认定与操作

查看缺失值

df.isnull().sum()

df.info()

删除缺失值

df.dropna()#删除缺失值所在行

df.dropna(1)#删除缺失值所在列

df.dropna(how='all')# 删除所有值都缺失的行

df.dropna(thresh=2)# 删除至少有两个缺失值的行

df.dropna(subset=['name', 'born'])# 指定判断缺失值的列范围

填充缺失值

df.fillna(a)

重复值

重复值的识别

df.duplicated()

df[df.duplicated()]#筛选出重复内容

重复值的删除

df.drop_duplicates()

数据分组

对于某些连续型数据,需要将其离散化以便于分析,例如将百分数成绩分为优、良、中、及格和不及格五档

pd.cut()

image.png

image.png

image.png

数据筛选——即实现excel中的筛选功能

df['Q1'].value_counts()#查看Q1列的类别名及个数

image.png

文本变量转换

方法一:replace

image.png

方法二:map

df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})