谷歌全球洪水预报系统最新升级，v2版本可靠预报时长延长6天，精度全面提升Google Research 升级全球洪水预报

洪水是全球影响最广、危害最深的自然灾害之一。河流径流能否被准确预测、洪水预警能否及时发布，直接关系到流域防灾减灾能力、生态安全以及社会经济运行的稳定性。也正因如此，水文学长期以来始终将「如何更准确地预测洪水」视为核心问题之一。

过去几十年中，机器学习在水文模拟与洪水预报领域经历了持续演进。早期研究主要围绕概念性降雨—径流模型展开，这类方法在观测数据匮乏、缺少实测站点的「无资料流域」中发挥了重要作用。随着数据规模与计算能力的提升，研究重点逐渐从单纯提升预测精度，扩展到模型可解释性、不确定性量化、数据同化，以及机理模型与深度学习融合等更复杂的方向，推动水文预报逐步进入「数据+机理」协同驱动的新阶段。

在这一背景下，Google Research 的研究团队近期将经过业务验证的机器学习水文模型大规模部署至全球洪水预报系统中。其全球洪水预报系统第二版（v2）已正式投入运行，并成为 Google FloodHub 河流预报模块的核心引擎。相比第一版系统，v2 围绕训练数据不足、时序长度受限以及输入数据分布偏移等三大长期制约业务化落地的关键问题提出了系统性的改进方案，显著提升了全球尺度径流预报的稳定性与可靠性。

不过，从「模型有效」走向「社区可复现、可扩展」，还需要解决算法透明度与数据开放性等问题。基于这一考虑，研究团队在发布 v2 系统的同时，也同步公开了研发过程中的关键实现细节与当前仍面临的挑战，并推出了谷歌径流再分析与再预报数据集（GRRR）。该数据集覆盖全球超过百万个河流站点，包含数十年的历史模拟与再预报结果，为后续方法研究和模型迭代提供了重要的数据基础。

数据集：静态属性、动态驱动与径流观测

河流预报模型的核心任务，是预测各流域出口的日均径流量。模型输入主要由静态流域属性、动态气象驱动数据以及目标径流数据三部分组成。

静态流域属性用于描述长期稳定、不随时间变化的流域物理特征。研究共使用 92 项空间平均属性，主要来源于 HydroATLAS，并结合 ERA5-Land 再分析数据计算水文气候统计量，涵盖地形、气候、土地覆被、土壤以及人类活动等多方面信息，例如平均海拔、干旱度、降水季节性、森林覆盖率、土壤水力特性以及人口密度等。

动态气象驱动数据则用于刻画会引发水文响应的天气过程。已有研究表明，多源气象数据融合能够显著提升 LSTM 类模型的预测能力，因此 v2 系统同时接入了多套全球气象产品，包括 European Centre for Medium-Range Weather Forecasts HRES、National Oceanic and Atmospheric Administration CPC、GraphCast 以及 National Aeronautics and Space Administration IMERG。输入变量涵盖总降水量、2 米气温等关键气象因子，并统一聚合为日尺度数据。相比单一气象来源，这种多源融合方式能够更好地缓解不同地区和不同时间尺度上的误差问题。

动态输入数据集与目标径流数据的时间可用性

在径流数据方面，v2 系统联合使用 Caravan、GRDC 和 BANDAS 三个数据集进行训练，而 v1 仅依赖 GRDC。为了保证结果可比性，v1 评测中使用的 GRDC 测试站点也被完整保留在 v2 测试集中。如下图所示，扩展后的训练样本覆盖全球不同气候带与水文环境，空间代表性明显增强。其中，Caravan 本身是基于 CAMELS 体系构建的大样本开源流域数据集，整合了多个国家和研究机构的数据资源。

全球训练与测试站点空间分布

模型在业务运行中区分「后报」和「预报」两个阶段。后报阶段主要使用 HRES 与 GraphCast 的 0 天时效数据，而 CPC 与 IMERG 由于无法提供实时预报，因此不参与未来时段预测。由于 HRES 和 GraphCast 的业务存档分别始于 2012 年和 2016 年，而 ERA5-Land 与径流观测可追溯至 1980 年，研究团队利用 ERA5-Land 补齐早期缺失时段，以维持长时间序列训练的一致性。

架构升级，彻底解决预报初始化突变缺陷

谷歌全球洪水预报系统第二版的核心是均值嵌入长短期记忆网络（ME-LSTM）。相比第一版采用的编码器—解码器 LSTM（ED-LSTM），ME-LSTM 更适合处理输入缺失与长时序预报，也解决了 v1 中后报阶段与预报阶段切换时容易出现的预测突变问题。

均值嵌入预报长短期记忆网络架构

在 v1 中，后报与预报分别由两个独立 LSTM 处理，后报网络输出的隐藏态与细胞态，会经过一个小型神经网络转换后，用于初始化预报网络。这样设计的目的，是让后报与预报阶段分别学习不同的数据分布，以缓解观测数据、再分析数据与天气预报数据之间的差异。不过，在实际业务运行中，这种结构容易导致预报初期状态不稳定，使模型优先调整内部状态，而不是及时响应真实水文过程，从而造成预测结果出现不连续。

为解决这一问题，ME-LSTM 不再将所有气象输入直接拼接，而是把每一种气象产品视为独立输入源，并分别通过专属嵌入网络映射到共享隐空间。在嵌入之前，静态流域属性会与对应的动态输入拼接。随后，模型通过掩码均值机制自动聚合不同来源的数据，同时忽略缺失输入，从而增强对数据缺失和输入分布偏移的鲁棒性。

在时序建模层面，ME-LSTM 采用两层堆叠 LSTM 统一处理完整时间序列，而不再人为拆分后报与预报阶段，因此模型状态能够连续演化，从根本上消除了 v1 中的状态交接问题。第一层 LSTM 负责处理完整输入序列并生成聚合特征，第二层 LSTM 则基于这些特征完成径流预测。

两版模型均采用混合密度输出层实现概率预报，输出可数混合非对称拉普拉斯分布（CMAL）参数，以刻画未来径流的不确定性。论文中的确定性结果，则取自预测分布的均值。

训练方面，v2 使用 Adam 优化器与 CMAL 似然损失函数，并通过高斯噪声注入、梯度裁剪以及随机输入丢弃等策略提升模型鲁棒性。其中，随机丢弃部分时序输入特征的设计，可以增强模型在真实业务环境下应对数据缺失的能力。整个训练共进行 125 轮，以提高模型在全球复杂水文环境中的泛化能力。

时序相关性增强，第二版综合预报精度显著提升

该研究主要评估 v2 系统在两类场景中的表现：一类是拥有实测水文站点的流域，另一类则是完全没有本地实测数据、只能依赖跨流域泛化能力进行预测的「无资料流域」。相比 v1 采用的随机十折交叉验证，v2 进一步使用独立测试集评估，使实验更接近真实业务部署环境。

由于 v2 不仅更新了模型架构，还扩展了训练数据和气象输入，研究团队额外构建了一个去除 GraphCast 输入的简化版本，用于单独分析 AI 天气预报数据带来的贡献。实验采用纳什—萨特克利夫效率系数（NSE）和克林—古普塔效率系数（KGE）作为核心指标，前者衡量整体拟合能力，后者则从时序一致性、水量平衡和流量波动等维度分析模型表现。测试时间覆盖 2016 年至 2023 年。

考虑到模型需要较长历史序列进行初始化，研究人员在测试年份前后各预留一年隔离区间，并从训练集中完全剔除，以避免时间信息泄露。最终，共选取 1,222 个共享测试流域进行统一评估。对比基准则包括 Global Flood Awareness System（GloFAS）和 European Flood Awareness System（EFAS）等传统业务模型。

结果显示，v2 在全球范围内、不同预报时长以及两类场景下，整体性能均显著优于 v1，同时两代谷歌模型也明显领先于传统业务模型。其中，模型架构升级与训练数据扩充，主要提升了有实测站点流域的表现；而 GraphCast 带来的增益则更多体现在中长期预报，并同时改善有实测与无实测两类场景。KGE 分解结果进一步表明，这种提升主要来自对径流时序变化与流量波动的刻画能力增强。

各预报时效 KGE 指标分解

一个较为典型的结果是：在有实测数据的流域中，v2 第 6 天的预报精度，已经能够达到甚至超过 v1 的即时预报水平；而在无实测流域中，预报时效则仅获得小幅延长。这也说明，本地观测数据仍然是影响模型性能的关键因素。

第二版 0—7 天时效预报

研究还发现，流域天然属性会显著影响预测效果。总体而言，湿润、积雪丰富且植被覆盖较好的流域更容易获得稳定预测，而干旱地区由于径流波动剧烈，误差通常更大。不过，在拥有实测数据的情况下，v2 在干旱流域中的提升反而更加明显。相比之下，存在大量水库和人工调控设施的流域，即使模型升级后改善仍较有限，说明当前深度学习模型对复杂人为调度过程的刻画能力依然不足。

核心流域属性分层下的模型绝对性能

写在最后

从模型研发、业务化部署到数据与代码开源，v2 系统体现出机器学习水文建模领域一个越来越清晰的趋势：研究目标已经不再只是「提高几个百分点的精度」，而是开始更加重视模型在真实复杂环境中的稳定性、泛化能力与可扩展性。当然，当前系统仍存在明显局限。干旱流域、人工调控区域以及完全无实测站点的场景，依然是全球洪水预报中的难点；模型对本地观测数据的依赖，也尚未真正摆脱。

但这项工作至少证明了一点：当高质量训练数据、全球尺度多源气象信息与针对业务场景设计的深度学习架构结合之后，机器学习已经能够支撑真正意义上的全球化洪水预报系统。对于未来的防洪减灾、水资源调度以及极端气候风险管理而言，这无疑是一个值得关注的重要进展。