Pandas 数据重复处理 duplicated()和drop_duplicates()

253 阅读1分钟

duplicated()和drop_duplicates()

导库

import pandas as pd
import numpy as np

创建数据集

x=np.array([[1,2,3],[3,4,5],[1,2,3],[1,2,3]])
x=pd.DataFrame(x)
x

在这里插入图片描述

duplicated()

返回每行数据是否重复

x.duplicated()

在这里插入图片描述

计算重复数据数目

x.duplicated().sum()

在这里插入图片描述

drop_duplicates()

删除重复值

x=x.drop_duplicates()
x

在这里插入图片描述