首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLMForEveryBody
真忒修斯之船
创建于2024-08-06
订阅专栏
每个人都能看懂的大模型知识分享
等 16 人订阅
共95篇文章
创建于2024-08-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
干货:落地企业级RAG的实践指南
对于企业级数据,很多来自多种文档类型,例如 PDF、Word 文档、电子邮件和网页, 我们需要关注以下两个阶段:Load & Process,Split/Chunking
大模型应用涌现出的新工作机会-红队测试Red-teaming
在发布大模型应用之前,我们需要发现这些潜在的漏洞和风险(并修复),而不是被用户发现,不然就死翘翘了。
(也许是)全网最全的神经网络优化器optimizer总结
前一段时间,我想搞清楚优化器的发展脉络,试图了解从梯度下降到现在最常用的AdamW的发展。但搜索了很多资料,都没找到一个全面的总结。所以我决定自己整理一份,希望能帮助到大家。
每天3分钟,彻底弄懂神经网络的优化器(十二)RAdam
RAdam算法通过引入一个修正项来解决自适应学习率在模型训练早期阶段过大的方差问题,从而改善了优化过程的稳定性和鲁棒性。
DevOps, AIOps, MLOps, LLMOps,这些Ops都是什么?
你会在很多地方看到这些词,或许AIOps和MLOps还会搞混淆,本文我们来一一解释这些Ops的含义。
每天3分钟,彻底弄懂神经网络的优化器(十一)AdamW
AdamW通过将权重衰减从梯度更新中解耦,从而在每次迭代中更有效地应用权重衰减。这种方法在实践中被证明可以提高模型的收敛速度和泛化能力。
每天3分钟,彻底弄懂神经网络的优化器(十)Nadam
Nadam算法结合了Adam算法和Nesterov Accelerated Gradient(NAG)算法的优点,旨在提高优化算法的性能。
每天3分钟,彻底弄懂神经网络的优化器(九)Adam
Adam算法结合了AdaGrad算法和RMSProp算法的优点,通过计算梯度的一阶矩估计和二阶矩估计来为不同的参数设计独立的自适应性学习率,从而实现更高效的网络训练。
每天3分钟,彻底弄懂神经网络的优化器(八)RMSprop
RMSProp 算法是一种自适应学习率的优化方法,它通过使用梯度的平方的指数移动平均值来调整每个参数的学习率,从而加快学习速度并减少训练过程中的震荡
大模型性能评测之数星星
大海捞针NeedleInAHaystack已经成为评测大模型长文本能力的基本方法,鹅厂的MLPD实验室整了个花活,用小企鹅数星星的方法测试大模型的长文本能力.
大模型性能评测之大海捞针(Needle In A Haystack)
把一个关键信息(针)藏在一个长文本Prompt(草垛/大海)中,然后通过提问让大模型找到这个关键信息。 由于这个测试确实能反映出大模型的能力,现在已经逐渐发展为一种标准的评估方法。
每天3分钟,彻底弄懂神经网络的优化器(七)AdaDelta
AdaDelta算法旨在解决AdaGrad算法中学习率单调递减的问题,通过限制累积梯度的窗口大小来调整学习率,使得算法在训练过程中能够自适应地调整每个参数的学习率,而不需要手动设置。
每天3分钟,彻底弄懂神经网络的优化器(六)AdaGrad
AdaGrad算法的主要特点是为每个参数独立地调整学习率,使得不频繁更新的参数可以获得更大的学习率,而频繁更新的参数则获得较小的学习率。这种自适应调整学习率的方法特别适合处理稀疏数据。
每天3分钟,彻底弄懂神经网络的优化器(五)Rprop
Resilient Backpropagation算法是1993年提出的。Rprop算法通过仅使用梯度的符号来计算更新,而不是梯度的大小,从而动态地为每个权重独立地调整步长。
每天3分钟,彻底弄懂神经网络的优化器(四)ASGD
平均随机梯度下降(Average Stochastic Gradient Descent,ASGD)是种用于优化可微分目标函数的迭代方法,它是梯度下降优化的随机近似,ASGD的提出可以追溯到1992年
每天3分钟,彻底弄懂神经网络的优化器(三)Momentum
动量算法的命名灵感来源于物理学中的动量概念,它通过在参数更新中加入过去迭代的梯度信息,模拟了物体运动时动量的效果,使得算法在优化过程中能够保持一定的“惯性”
每天3分钟,彻底弄懂神经网络的优化器(二)SGD
SGD 在每次迭代中只使用一个或一小批样本来计算梯度,然后更新模型参数。这样做可以减少每次迭代的计算成本,并有助于算法逃离局部最小值。
每天3分钟,彻底弄懂神经网络的优化器optimizer(一)概述
从1951年Herbert Robbins和Sutton Monro在其题为“随机近似方法”的文章中提出SGD,到2017年出现的AdamW成为最主流的选择,优化器的发展经历了70多年的时间。
混合专家模型 (MoE) 详解(节选)
混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
在大型语言模型中,SwiGLU 作为激活函数的使用已经成为了一种趋势。那么,为什么大型语言模型都在使用 SwiGLU 作为激活函数呢?
下一页