df.B_ID.unique() 是 Pandas DataFrame 或 Series 对象的一个方法,用于返回该对象中唯一值的数组或列表。这个方法通常用于数据分析和数据清洗过程中,帮助用户快速了解数据的不同取值情况。除了基本的用法外,还可以使用一些拓展技巧和参数来扩展其功能:
-
返回数组或列表:
- 基本用法是直接调用
unique()方法,它会返回一个包含所有唯一值的 NumPy 数组或 Python 列表。例如:这将返回 DataFrameunique_values = df['B_ID'].unique()df中列名为'B_ID'的列中所有不重复的值。
- 基本用法是直接调用
-
排序结果:
- 可以通过将
sort=True参数传递给unique()方法来对唯一值进行排序。例如:这将返回排序后的唯一值数组或列表。unique_values_sorted = df['B_ID'].unique(sort=True)
- 可以通过将
-
返回索引和值:
- 使用
return_index=True参数可以返回唯一值及其在原数组中的第一次出现的索引位置。例如:这将返回唯一值数组unique_values, index = np.unique(df['B_ID'], return_index=True)unique_values和它们在原始 Series 中的索引位置数组index。
- 使用
-
返回计数:
- 使用
return_counts=True参数可以返回每个唯一值在原数组中出现的次数。例如:这将返回唯一值数组unique_values, counts = np.unique(df['B_ID'], return_counts=True)unique_values和每个唯一值对应的计数数组counts。
- 使用
-
返回唯一值和频率:
- 结合使用
return_counts=True和return_index=True可以返回唯一值、它们的频率以及第一次出现的索引位置。例如:这将返回唯一值数组unique_values, counts, index = np.unique(df['B_ID'], return_counts=True, return_index=True)unique_values、计数数组counts和索引数组index。
- 结合使用
通过这些拓展用法,你可以更灵活地使用 unique() 方法来获取和处理数据中的唯一值及其相关信息,适应不同的数据分析和清洗需求。