[Datawhale AI春训营] 新能源发电功率预测 TASK2 探索提分

379 阅读2分钟

项目背景

感谢Datawhale组织这么好的春训营带我入门数据比赛,学习下来相当有收获!

本文针对的是 第三届世界科学智能大赛新能源赛道:新能源发电功率预测 的个人探索提分,现将关键改进思路整理分享。

完善代码,电站预测分开处理

首先完善代码,用一个电站的数据去预测十个电站肯定是不合理的,尤其是风电、光电混合这种情形。

写一个循环,每个电站读取自己的天气数据,构建自己的模型。

数据可视化探索

然后试图提分,进行可视化,发现数据集探索

对全部数据集里面的特征与最终发电功率绘制散点图查看特征。

风力电站

风力电站1 三个天气预报来源的关系

current data NWP_1 on power effects

current data NWP_2 on power effects

current data NWP_3 on power effects

可以发现,风电与u100的绝对值呈明显的正相关,加入特征集

光伏电站

光伏电站7 三个天气预报来源的关系

current data NWP_1 on power effects

['ghi', 'poai', 'sp', 't2m', 'tcc', 'tp', 'u100', 'v100', 'hour', 'wind_direction', 'u100abs', 'v100abs', 'wind_speed', 'poai_smooth', 'ghi_diff', 'hour_sin', 'hour_cos', 'wind_speed_lag1', 'ghi_lag1', 'wind_speed_lag2', 'ghi_lag2', 'wind_speed_lag3', 'ghi_lag3', 'wind_pressure']

可以发现数据集 ghi、poai明显与光电正相关。

此外时间也很相关,早上六点到晚上20点有可能有发电功率

这个在预测值里可以特殊处理一下

处理时间序列

当前15分钟的精度 是重复小时数据4次获得的

有些粗糙,但是我想不到从历史数据提取拟合规律的办法

构建时序特征:5:00-20:00时段标记、小时周期编码

就简单用np.interp拟合一下预测吧

风电的预测

光电的预测

分数又提高了 0.3分

还需要继续努力呀