数据维度解析
在代码执行data.shape输出的维度元组中,各维度含义依次为:
(时间步数, 预报时长, 气象变量数, 纬度网格数, 经度网格数)
即 (1, 24, 8, 11, 11)
首维度"1"的具体含义
-
时间维度:
首维度表示初始时刻的时间步数,这里的"1"说明当前加载的是单个初始时刻的气象数据文件。这种设计常见于时间序列数据的分文件存储模式: • 每个.nc文件对应一个初始时刻(如2024年1月1日00时)• 当需要处理多日数据时,需通过循环加载多个文件
-
维度扩展说明:
若首维度出现更大的数值(如n),则表示同时加载了n个初始时刻的数据,这种设计: • 支持批量处理多时刻数据• 有利于构建时间序列特征
• 示例:若
data.shape=(5,24,8,11,11),则表示同时加载了5个连续初始时刻的数据
其他维度说明
| 维度位置 | 维度值 | 含义说明 |
|---|---|---|
| 第2维度 | 24 | 预报时效(小时),表示从初始时刻起连续24小时的预报数据 |
| 第3维度 | 8 | 气象变量通道数(对应ghi/poai/sp等8个气象要素) |
| 第4-5维度 | 11x11 | 空间网格分辨率,表示11x11的经纬度格点矩阵 |
数据处理策略
在Baseline中通过np.mean(data[:, :, i, :, :][0], axis=(1, 2))实现了:
- 对空间维度(11x11网格)取均值,将二维气象场降维成标量值
- 保留时间维度(24小时)和通道维度(8个变量)
- 最终生成24x8的二维特征矩阵,适配机器学习模型输入要求
维度优化建议 若想提升模型表现,可考虑:
- 保留空间特征:将11x11网格数据作为图像特征输入CNN模型
- 时间维度扩展:合并多日数据形成(ndays,24,8,11,11)的五维数组,构建时序特征
- 通道维度增强:通过风速合成(如
sqrt(u100²+v100²))等衍生新气象要素
注:具体维度含义需以主办方提供的《数据说明书》为准,不同竞赛的数据封装方式可能存在差异。当维度值出现变化时(如首维度>1),需要相应调整数据加载逻辑。