df_brand["品牌累计占比"] = df_brand.groupby("品类").["品牌占比"].cumsum()

87 阅读1分钟

使用 pandas 数据框操作,主要是对数据进行分组并计算累积和。让我们逐步解释它的作用:

  1. df_brand.groupby("品类"): 这部分代码将数据框 df_brand 按照“品类”列进行分组。这样,相同品类的所有行将被分为一个组。

  2. ["品牌占比"]: 这部分代码选择了在每个组中要操作的列,这里是“品牌占比”列。

  3. .cumsum(): 这一函数用于计算累积和(cumulative sum)。在每个组内,对“品牌占比”列的累积和进行计算。

  4. df_brand["品牌累计占比"] = ...: 这一部分将计算得到的结果赋值给新的列“品牌累计占比”。这意味着,df_brand 数据框中将新增一列,存储每个品类中“品牌占比”的累积和。

综上所述,这行代码的作用是:

df_brand 数据框按“品类”列进行分组,然后在每个组内计算“品牌占比”列的累积和,最后将累积和的结果存储在新列“品牌累计占比”中。

简单示例如下:

假设 df_brand 数据框如下:

品类品牌品牌占比
A品牌10.1
A品牌20.2
A品牌30.3
B品牌40.4
B品牌50.5

运行这行代码后,df_brand 将变成:

品类品牌品牌占比品牌累计占比
A品牌10.10.1
A品牌20.20.3
A品牌30.30.6
B品牌40.40.4
B品牌50.50.9

如上所示,“品牌累计占比”列是按品类分别计算“品牌占比”的累积和。