误差反馈EF21的六大算法扩展,优化分布式梯度压缩

18 阅读1分钟

EF21 with Bells & Whistles: Six Algorithmic Extensions of Modern Error Feedback

Ilyas Fatkhullin, Igor Sokolov, Eduard Gorbunov, Zhize Li, Peter Richtárik; 26(189):1−50, 2025.

摘要

误差反馈(EF)由Seide于2014年作为一种启发式方法首次提出,它是一种非常流行的机制,旨在确保基于梯度、并采用压缩通信策略(通过应用压缩算子实现)的分布式优化方法的收敛性。然而,现有的EF理论依赖于非常强的假设(例如梯度有界),并且提供了悲观的收敛速率(例如,在全梯度被压缩、光滑非凸情况下,EF的最佳已知收敛速率为O(1/T^{2/3}),而在相同情况下梯度下降法的收敛速率为O(1/T))。最近,Richtárik等人(2021)提出了一种新的误差反馈机制EF21,它基于压缩算子构建的马尔可夫压缩器。EF21消除了上述EF的理论缺陷,同时在实际中表现更优。本文提出了EF21的六项实用性扩展,所有这些扩展都得到了强大收敛理论的支持:部分参与、随机逼近、方差缩减、近端设置、动量和双向压缩。据我们所知,其中多项技术此前尚未与EF结合进行分析,而在某些已有分析的方面(例如双向压缩),我们的理论收敛保证显著改进了现有结果。

[abs][pdf][bib]        [code]