pandas判断上下两行数值是否有变化

530 阅读4分钟

项目中数据处理过程中遇到的场景如下:一个系统下面有多个设备的运行数据,运行数据中有开关机状态的字段,需要统计在一个周期内,这些设备的开关机变化情况。

构造数据

import pandas as pd

# 1表示开机,0表示关机
df = pd.DataFrame({
    1: [1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1],
    2: [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1],
    3: [1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]
}, index=pd.date_range(start='2021-08-31 00:00:00', periods=11, freq='min'))

print(df)

out:
 					1  2  3
2021-08-31 00:00:00  1  0  1
2021-08-31 00:01:00  1  0  1
2021-08-31 00:02:00  1  0  1
2021-08-31 00:03:00  0  0  1
2021-08-31 00:04:00  0  0  1
2021-08-31 00:05:00  0  0  0
2021-08-31 00:06:00  0  0  0
2021-08-31 00:07:00  0  0  0
2021-08-31 00:08:00  0  1  0
2021-08-31 00:09:00  0  1  0
2021-08-31 00:10:00  1  1  0

解决思路

判断这些设备的开关机变化情况,有变化的就记录所变化的时间点,数值类型的话需要当前数据减去上一条数据,如果值为0,则无变化,如果不为0,则说明上下两条数据是有变化的。

# 下移数据
df_shift = df.shift()

print(df_shift)
out:
					 1    2    3
2021-08-31 00:00:00  NaN  NaN  NaN
2021-08-31 00:01:00  1.0  0.0  1.0
2021-08-31 00:02:00  1.0  0.0  1.0
2021-08-31 00:03:00  1.0  0.0  1.0
2021-08-31 00:04:00  0.0  0.0  1.0
2021-08-31 00:05:00  0.0  0.0  1.0
2021-08-31 00:06:00  0.0  0.0  0.0
2021-08-31 00:07:00  0.0  0.0  0.0
2021-08-31 00:08:00  0.0  0.0  0.0
2021-08-31 00:09:00  0.0  1.0  0.0
2021-08-31 00:10:00  0.0  1.0  0.0


# 两者相减
df_change = df - df_shift

print(df_change)
					 1    2    3
2021-08-31 00:00:00  NaN  NaN  NaN
2021-08-31 00:01:00  0.0  0.0  0.0
2021-08-31 00:02:00  0.0  0.0  0.0
2021-08-31 00:03:00 -1.0  0.0  0.0
2021-08-31 00:04:00  0.0  0.0  0.0
2021-08-31 00:05:00  0.0  0.0 -1.0
2021-08-31 00:06:00  0.0  0.0  0.0
2021-08-31 00:07:00  0.0  0.0  0.0
2021-08-31 00:08:00  0.0  1.0  0.0
2021-08-31 00:09:00  0.0  0.0  0.0
2021-08-31 00:10:00  1.0  0.0  0.0

获取变化所在的行

print(abs(df_change) > 0)

out:
					 1      2      3
2021-08-31 00:00:00  False  False  False
2021-08-31 00:01:00  False  False  False
2021-08-31 00:02:00  False  False  False
2021-08-31 00:03:00   True  False  False
2021-08-31 00:04:00  False  False  False
2021-08-31 00:05:00  False  False   True
2021-08-31 00:06:00  False  False  False
2021-08-31 00:07:00  False  False  False
2021-08-31 00:08:00  False   True  False
2021-08-31 00:09:00  False  False  False
2021-08-31 00:10:00   True  False  False

# 这时需要用到any来判断每行是否有True的情况,直接给出结果
print(df[(abs(df_change) > 0).any(axis=1)])
out:
					 1  2  3
2021-08-31 00:03:00  0  0  1
2021-08-31 00:05:00  0  0  0
2021-08-31 00:08:00  0  1  0
2021-08-31 00:10:00  1  1  0

如上,便获取到了有关上下两行数值类型数据是否有变化的情况。

希望对大家有所帮助,有问题的地方也请大家批评指正,感谢!!

能给个关注就更好了