Datawhale AI青训营 task2解析

90 阅读2分钟

数据维度解析 在代码执行data.shape输出的维度元组中,各维度含义依次为:

(时间步数, 预报时长, 气象变量数, 纬度网格数, 经度网格数)
即 (1, 24, 8, 11, 11)

首维度"1"的具体含义

  1. 时间维度:
    首维度表示初始时刻的时间步数,这里的"1"说明当前加载的是单个初始时刻的气象数据文件。这种设计常见于时间序列数据的分文件存储模式: • 每个.nc文件对应一个初始时刻(如2024年1月1日00时)

    • 当需要处理多日数据时,需通过循环加载多个文件

  2. 维度扩展说明:
    若首维度出现更大的数值(如n),则表示同时加载了n个初始时刻的数据,这种设计: • 支持批量处理多时刻数据

    • 有利于构建时间序列特征

    • 示例:若data.shape=(5,24,8,11,11),则表示同时加载了5个连续初始时刻的数据

其他维度说明

维度位置维度值含义说明
第2维度24预报时效(小时),表示从初始时刻起连续24小时的预报数据
第3维度8气象变量通道数(对应ghi/poai/sp等8个气象要素)
第4-5维度11x11空间网格分辨率,表示11x11的经纬度格点矩阵

数据处理策略 在Baseline中通过np.mean(data[:, :, i, :, :][0], axis=(1, 2))实现了:

  1. 对空间维度(11x11网格)取均值,将二维气象场降维成标量值
  2. 保留时间维度(24小时)和通道维度(8个变量)
  3. 最终生成24x8的二维特征矩阵,适配机器学习模型输入要求

维度优化建议 若想提升模型表现,可考虑:

  1. 保留空间特征:将11x11网格数据作为图像特征输入CNN模型
  2. 时间维度扩展:合并多日数据形成(ndays,24,8,11,11)的五维数组,构建时序特征
  3. 通道维度增强:通过风速合成(如sqrt(u100²+v100²))等衍生新气象要素

注:具体维度含义需以主办方提供的《数据说明书》为准,不同竞赛的数据封装方式可能存在差异。当维度值出现变化时(如首维度>1),需要相应调整数据加载逻辑。