Enefit - Predict Energy Behavior of Prosumers
概述
产消者数量正在迅速增加,解决能源不平衡及其成本上升问题至关重要。如果不加以解决,这可能会导致运营成本增加、潜在的电网不稳定以及能源利用效率低下。如果这一问题得到有效解决,将显着降低不平衡成本,提高电网的可靠性,并使产消者更加高效、可持续地融入能源系统。此外,它可能会激励更多消费者成为产消者,因为他们知道他们的能源行为可以得到充分管理,从而促进可再生能源的生产和使用。
Enefit 是波罗的海地区最大的能源公司之一。作为能源领域的专家,我们帮助客户以个性化、灵活的方式规划他们的绿色旅程,并使用环保的能源解决方案来实施。
目前,Enefit正在尝试通过开发内部预测模型并依靠第三方预测来解决不平衡问题。然而,这些方法已被证明是不够的,因为它们在预测产消者能源行为方面的准确性较低。当前这些方法的缺点在于无法准确地解释影响产消者行为的各种变量,从而导致高昂的不平衡成本。通过 Kaggle 平台向世界上最优秀的数据科学家开放挑战,Enefit 旨在利用更广泛的专业知识和新颖的方法来提高这些预测的准确性,从而减少不平衡和相关成本。
评估
本竞赛的提交将根据预测回报与观察目标之间的平均绝对误差(Mean Absolute Error,MAE)进行评估。公式如下:
其中:
- 是数据点的总数。
- 是数据点 的预测值。
- 是数据点 的观察值。
提交
为参与本竞赛,必须使用提供的Python时间序列API进行提交,以确保模型在时间上不提前查看。请按照提供的笔记本模板使用API。 the template in this notebook.
代码要求
必须通过Notebooks进行本竞赛的提交。只有在提交符合以下条件后,才能激活“提交”按钮:
CPU Notebook <= 9 hours run-time
GPU Notebook <= 9 hours run-time
Internet access disabled
Freely & publicly available external data is allowed, including pre-trained models Submission file must be named submission.csv and be generated by the API.
数据集描述
您在本次比赛中面临的挑战是预测安装了太阳能电池板的爱沙尼亚能源客户的发电量和消耗量。您将可以访问天气数据、相关能源价格以及光伏发电装机容量记录。
这是一个使用时间序列API的预测竞赛。私人排行榜将使用提交期结束后收集的真实数据来确定。
💡 注意:
所有数据集都遵循相同的时间约定。时间以 EET/EEST 给出。大多数变量是 1 小时内的总和或平均值。日期时间列(无论其名称如何)始终给出 1 小时时间段的开始时间。然而,对于天气数据集,一些变量(例如温度或云量)是针对特定时间给出的,该时间始终是 1 小时周期的末尾。
数据文件
train.csv
- county(县): 县的ID代码。
- is_business(商业性质): 表示生产者是否为商业的布尔值。
- product_type(产品类型): ID代码,对应以下合同类型的映射:{0: "综合", 1: "固定", 2: "一般服务", 3: "即期"}。
- target(目标): 与县、商业性质和产品类型定义的小时段相关的消耗或生产量。
- is_consumption(是否为消耗): 表示此行的目标是消耗还是生产的布尔值。
- datetime(时间): 爱沙尼亚时间,使用EET(UTC+2)/EEST(UTC+3)表示。描述给定目标的1小时段的开始时间。
- data_block_id(数据块ID): 所有共享相同data_block_id的行将在相同的预测时间可用。这是在实际制作预测时,每天上午11点。例如,如果预测天气数据的data_block_id是10月31日预测时的100,则10月31日的历史天气数据的data_block_id将是101,因为历史天气数据只有在下一天才会真正可用。
- row_id(行ID): 行的唯一标识符。
- prediction_unit_id(预测单元ID): 表示县、商业性质和产品类型组合的唯一标识符。测试集中可能会出现或消失新的预测单元。
gas_prices.csv
- origin_date(起始日期): 前一天的价格可用的日期。
- forecast_date(预测日期): 预测价格应该相关的日期。
- [lowest/highest]_price_per_mwh([最低/最高]每兆瓦时价格): 前一天市场上天然气的最低/最高价格,以欧元每兆瓦时等价物表示。
- data_block_id。
client.csv
- product_type(产品类型)
- county(县): 县的ID代码。参见county_id_to_name_map.json以查看ID代码与县名的映射。
- eic_count(消耗点数量): 消耗点(EICs - 欧洲标识符代码)的聚合数量。
- installed_capacity(安装光伏太阳能电池板容量): 安装的光伏太阳能电池板容量,以千瓦表示。
- is_business(是否为商业): 表示生产者是否为商业的布尔值。
- date(日期)
- data_block_id。
electricity_prices.csv
- origin_date(起始日期)
- forecast_date(预测日期): 代表价格有效的1小时段的开始时间。
- euros_per_mwh(每兆瓦时欧元): 前一天市场上电力的价格,以欧元每兆瓦时表示。
- data_block_id。
forecast_weather.csv
- [latitude/longitude](纬度/经度): 天气预报的坐标。
- origin_datetime(起始时间): 预报生成的时间戳。
- hours_ahead(提前小时数): 预报生成和预报天气之间的小时数。每个预报总共覆盖48小时。
- temperature(温度): 地面上2米高度的空气温度,以摄氏度表示。估算为1小时段结束时。
- dewpoint(露点温度): 地面上2米高度的露点温度,以摄氏度表示。估算为1小时段结束时。
- cloudcover_[low/mid/high/total](云层覆盖[低/中/高/总]): 在以下高度范围内云层覆盖的百分比:0-2 km,2-6,6+和总计。估算为1小时段结束时。
- 10_metre_[u/v]_wind_component(10米以上风速分量): 测得地面以上10米处风速的[东向/北向]分量,以米每秒表示。估算为1小时段结束时。
- data_block_id
- forecast_datetime(预测时间): 预测天气的时间戳。从origin_datetime加上hours_ahead生成。表示预测天气数据的1小时段的开始时间。
- direct_solar_radiation(直射太阳辐射): 在1小时内达到地面的太阳辐射,以瓦特时每平方米表示。
- surface_solar_radiation_downwards(地表太阳辐射向下): 达到地球表面的太阳辐射,包括直射和漫射,累积在1小时内,以瓦特时每平方米表示。
- snowfall(降雪量): 雪在1小时内的降水量,以水等效米表示。
- total_precipitation(总降水): 描述的小时内落在地球表面的液体,包括雨和雪,以米为单位。
historical_weather.csv
- datetime(时间): 表示测得天气数据的1小时段的开始时间。
- temperature(温度): 在1小时段结束时测得的温度。
- dewpoint(露点温度): 在1小时段结束时测得的露点。
- rain(降雨): 与预测约定不同。大尺度天气系统的小时降雨量,以毫米表示。
- snowfall(降雪): 与预测约定不同。1小时内的降雪量,以厘米表示。
- surface_pressure(地面气压): 地面上的气压,以百帕表示。
- cloudcover_[low/mid/high/total](云层覆盖[低/中/高/总]): 与预测约定不同。0-3 km,3-8,8+和总云量。
- windspeed_10m(10米以上风速): 与预测约定不同。地面以上10米处的风速,以米每秒表示。
- winddirection_10m(10米以上风向): 与预测约定不同。地面以上10米处的风向,以度表示。
- shortwave_radiation(短波辐射): 与预测约定不同。水平全球辐射,以瓦特时每平方米表示。
- direct_solar_radiation(直射太阳辐射)
- diffuse_radiation(漫射太阳辐射): 与预测约定不同。漫射太阳辐射,以瓦特时每平方米表示。
- [latitude/longitude](纬度/经度): 天气站的坐标。
- data_block_id。
public_timeseries_testing_util.py
一个可选文件,用于更轻松地运行自定义的离线API测试。请查看脚本的文档字符串以获取详细信息。在使用之前,您需要编辑此文件。
example_test_files/
旨在说明API功能的数据。包括API提供的相同文件和列。前三个data_block_ids是训练集中最后三个data_block_ids的重复。
example_test_files/sample_submission.csv
由API提供的有效示例提交。请参阅本笔记本以获取如何使用示例提交的简单示例。
example_test_files/revealed_targets.csv
预测时间前一天的实际目标值。相对于测试.csv中的预测时间,这相当于两天的滞后。
benefit/
用于启用API的文件。预计API能够在15分钟内提供所有行,并且在内存中保留不到0.5 GB。您可以从example_test_files/下载API的副本。您必须对这些日期进行预测以推进API,但这些预测不会得分。初始交付将提供约三个月的数据,预测期结束时将提供最多十个月的数据。
标题:Enefit - Predict Energy Behavior of Prosumers | Kaggle