（也许是）全网最全的神经网络优化器optimizer总结

2024-10-17 202 阅读2分钟

前一段时间，我想搞清楚优化器的发展脉络，试图了解从梯度下降到现在最常用的AdamW的发展。但搜索了很多资料，都没找到一个全面的总结。所以我决定自己整理一份，希望能帮助到大家。

optimizer负责在训练过程中更新模型的参数, 目的是通过调整参数来最小化损失函数，即模型预测和实际数据之间的差异.

请添加图片描述

文章链接

彻底弄懂神经网络的优化器optimizer（一）综述

彻底弄懂神经网络的优化器（二）SGD

彻底弄懂神经网络的优化器（三）Momentum

彻底弄懂神经网络的优化器（四）ASGD

彻底弄懂神经网络的优化器（五）Rprop

彻底弄懂神经网络的优化器（六）AdaGrad

彻底弄懂神经网络的优化器（七）AdaDelta

彻底弄懂神经网络的优化器（八）RMSprop

彻底弄懂神经网络的优化器（九）Adam

彻底弄懂神经网络的优化器（十）Nadam

彻底弄懂神经网络的优化器（十一）AdamW

彻底弄懂神经网络的优化器（十二）RAdam

从1951年Herbert Robbins和Sutton Monro在其题为“随机近似方法”的文章中提出SGD，到2017年出现的AdamW成为最主流的选择，优化器的发展经历了70多年的时间。本系列从时间的角度出发，对神经网络的优化器进行梳理，希望能够帮助大家更好地理解优化器的发展历程。

欢迎关注我的GitHub和微信公众号，来不及解释了，快上船！

GitHub: LLMForEverybody

仓库上有原始的Markdown文件，完全开源，欢迎大家Star和Fork！