unique()用法

279 阅读2分钟

df.B_ID.unique() 是 Pandas DataFrame 或 Series 对象的一个方法,用于返回该对象中唯一值的数组或列表。这个方法通常用于数据分析和数据清洗过程中,帮助用户快速了解数据的不同取值情况。除了基本的用法外,还可以使用一些拓展技巧和参数来扩展其功能:

  1. 返回数组或列表

    • 基本用法是直接调用 unique() 方法,它会返回一个包含所有唯一值的 NumPy 数组或 Python 列表。例如:
      unique_values = df['B_ID'].unique()
      
      这将返回 DataFrame df 中列名为 'B_ID' 的列中所有不重复的值。
  2. 排序结果

    • 可以通过将 sort=True 参数传递给 unique() 方法来对唯一值进行排序。例如:
      unique_values_sorted = df['B_ID'].unique(sort=True)
      
      这将返回排序后的唯一值数组或列表。
  3. 返回索引和值

    • 使用 return_index=True 参数可以返回唯一值及其在原数组中的第一次出现的索引位置。例如:
      unique_values, index = np.unique(df['B_ID'], return_index=True)
      
      这将返回唯一值数组 unique_values 和它们在原始 Series 中的索引位置数组 index
  4. 返回计数

    • 使用 return_counts=True 参数可以返回每个唯一值在原数组中出现的次数。例如:
      unique_values, counts = np.unique(df['B_ID'], return_counts=True)
      
      这将返回唯一值数组 unique_values 和每个唯一值对应的计数数组 counts
  5. 返回唯一值和频率

    • 结合使用 return_counts=Truereturn_index=True 可以返回唯一值、它们的频率以及第一次出现的索引位置。例如:
      unique_values, counts, index = np.unique(df['B_ID'], return_counts=True, return_index=True)
      
      这将返回唯一值数组 unique_values、计数数组 counts 和索引数组 index

通过这些拓展用法,你可以更灵活地使用 unique() 方法来获取和处理数据中的唯一值及其相关信息,适应不同的数据分析和清洗需求。