Python数据分析之 Pandas Dataframe去重操作

314 阅读2分钟

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第14天,点击查看活动详情

在进行数据分析时,数据的质量可能并不理想,有可能包含一些重复数据,那我们就要进行数据的“去重”操作,删除重复的数据,保留唯一的数据项,从而提高数据集整体的精确度,同时也可以节省空间、提升读写性能等,接下来就来介绍一下 Pandas Dataframe 的去重操作。

去重操作

Pandas 提供了drop_duplicates()方法进行数据的去重操作,具体使用格式如下:

df.drop_duplicates(subset=None, keep="first", inplace=False, ignore_index=False)

参数说明如下:

  • subset:指定要进行去重的列名,默认为None,可以使用列表指定一个或多个列名
  • keep:有三个参数可选:first、last、False,默认为first,表示只保留第一次出现的重复项,删除其余重复项;last表示只保留最后一次出现的重复项;False表示删除所有重复项
  • inplace:是否在原Dataframe对象上进行操作
  • ignore_index:默认为False,设置为True可以重新生成行索引。

例如,对下面 DataFrame 对象进行去重操作:

image.png 可以看到该DataFrame 对象中索引为1、3的行是重复的,下面进行去除:

保留第一次出现的重复项

df.drop_duplicates(inplace=True)
df

结果输出如下: image.png 删除所有重复项

df.drop_duplicates(keep=False, inplace=True)
df

结果输出如下:

image.png

ignore_index参数使用

df.drop_duplicates(inplace=True, ignore_index=True)
df

image.png

ignore_index设置为True后,通过结果可以看到,行索引进行了重排。

当然drop_duplicates()方法也可以根据指定列名去重,给subset传递参数即可,例如根据name列进行去重:

df.drop_duplicates(subset=["name"], inplace=True)

原创不易,如果小伙伴们觉得有帮助,麻烦点个赞再走呗~

最后,感谢女朋友在工作和生活中的包容、理解与支持 !