首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
LearnLLM_AI
掘友等级
LearnLLM.AI
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
93
文章 93
沸点 0
赞
93
返回
|
搜索文章
最新
热门
大模型性能评测之大海捞针(Needle In A Haystack)
把一个关键信息(针)藏在一个长文本Prompt(草垛/大海)中,然后通过提问让大模型找到这个关键信息。 由于这个测试确实能反映出大模型的能力,现在已经逐渐发展为一种标准的评估方法。
每天3分钟,彻底弄懂神经网络的优化器(七)AdaDelta
AdaDelta算法旨在解决AdaGrad算法中学习率单调递减的问题,通过限制累积梯度的窗口大小来调整学习率,使得算法在训练过程中能够自适应地调整每个参数的学习率,而不需要手动设置。
每天3分钟,彻底弄懂神经网络的优化器(六)AdaGrad
AdaGrad算法的主要特点是为每个参数独立地调整学习率,使得不频繁更新的参数可以获得更大的学习率,而频繁更新的参数则获得较小的学习率。这种自适应调整学习率的方法特别适合处理稀疏数据。
每天3分钟,彻底弄懂神经网络的优化器(五)Rprop
Resilient Backpropagation算法是1993年提出的。Rprop算法通过仅使用梯度的符号来计算更新,而不是梯度的大小,从而动态地为每个权重独立地调整步长。
每天3分钟,彻底弄懂神经网络的优化器(四)ASGD
平均随机梯度下降(Average Stochastic Gradient Descent,ASGD)是种用于优化可微分目标函数的迭代方法,它是梯度下降优化的随机近似,ASGD的提出可以追溯到1992年
每天3分钟,彻底弄懂神经网络的优化器(三)Momentum
动量算法的命名灵感来源于物理学中的动量概念,它通过在参数更新中加入过去迭代的梯度信息,模拟了物体运动时动量的效果,使得算法在优化过程中能够保持一定的“惯性”
每天3分钟,彻底弄懂神经网络的优化器(二)SGD
SGD 在每次迭代中只使用一个或一小批样本来计算梯度,然后更新模型参数。这样做可以减少每次迭代的计算成本,并有助于算法逃离局部最小值。
每天3分钟,彻底弄懂神经网络的优化器optimizer(一)概述
从1951年Herbert Robbins和Sutton Monro在其题为“随机近似方法”的文章中提出SGD,到2017年出现的AdamW成为最主流的选择,优化器的发展经历了70多年的时间。
混合专家模型 (MoE) 详解(节选)
混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
在大型语言模型中,SwiGLU 作为激活函数的使用已经成为了一种趋势。那么,为什么大型语言模型都在使用 SwiGLU 作为激活函数呢?
下一页
个人成就
文章被点赞
129
文章被阅读
60,266
掘力值
1,862
关注了
0
关注者
43
收藏集
0
关注标签
4
加入于
2024-04-23