LearnLLM_AI

LearnLLM.AI

赞

93

|

搜索文章

大模型性能评测之大海捞针(Needle In A Haystack)

把一个关键信息（针）藏在一个长文本Prompt（草垛/大海）中，然后通过提问让大模型找到这个关键信息。由于这个测试确实能反映出大模型的能力，现在已经逐渐发展为一种标准的评估方法。

1年前
262
1
评论

大模型性能评测之大海捞针(Needle In A Haystack)

每天3分钟，彻底弄懂神经网络的优化器（七）AdaDelta

AdaDelta算法旨在解决AdaGrad算法中学习率单调递减的问题，通过限制累积梯度的窗口大小来调整学习率，使得算法在训练过程中能够自适应地调整每个参数的学习率，而不需要手动设置。

1年前
288
1
评论

每天3分钟，彻底弄懂神经网络的优化器（七）AdaDelta

每天3分钟，彻底弄懂神经网络的优化器（六）AdaGrad

AdaGrad算法的主要特点是为每个参数独立地调整学习率，使得不频繁更新的参数可以获得更大的学习率，而频繁更新的参数则获得较小的学习率。这种自适应调整学习率的方法特别适合处理稀疏数据。

1年前
224
1
评论

每天3分钟，彻底弄懂神经网络的优化器（六）AdaGrad

每天3分钟，彻底弄懂神经网络的优化器（五）Rprop

Resilient Backpropagation算法是1993年提出的。Rprop算法通过仅使用梯度的符号来计算更新，而不是梯度的大小，从而动态地为每个权重独立地调整步长。

1年前
159
1
评论

每天3分钟，彻底弄懂神经网络的优化器（五）Rprop

每天3分钟，彻底弄懂神经网络的优化器（四）ASGD

平均随机梯度下降（Average Stochastic Gradient Descent，ASGD）是种用于优化可微分目标函数的迭代方法，它是梯度下降优化的随机近似，ASGD的提出可以追溯到1992年

1年前
169
1
评论

每天3分钟，彻底弄懂神经网络的优化器（四）ASGD

每天3分钟，彻底弄懂神经网络的优化器（三）Momentum

动量算法的命名灵感来源于物理学中的动量概念，它通过在参数更新中加入过去迭代的梯度信息，模拟了物体运动时动量的效果，使得算法在优化过程中能够保持一定的“惯性”

1年前
563
2
1

每天3分钟，彻底弄懂神经网络的优化器（三）Momentum

每天3分钟，彻底弄懂神经网络的优化器（二）SGD

SGD 在每次迭代中只使用一个或一小批样本来计算梯度，然后更新模型参数。这样做可以减少每次迭代的计算成本，并有助于算法逃离局部最小值。

1年前
377
1
评论

每天3分钟，彻底弄懂神经网络的优化器（二）SGD

每天3分钟，彻底弄懂神经网络的优化器optimizer（一）概述

从1951年Herbert Robbins和Sutton Monro在其题为“随机近似方法”的文章中提出SGD，到2017年出现的AdamW成为最主流的选择，优化器的发展经历了70多年的时间。

1年前
361
3
评论

每天3分钟，彻底弄懂神经网络的优化器optimizer（一）概述

混合专家模型 (MoE) 详解（节选）

混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。

1年前
277
1
评论

混合专家模型 (MoE) 详解（节选）

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

在大型语言模型中，SwiGLU 作为激活函数的使用已经成为了一种趋势。那么，为什么大型语言模型都在使用 SwiGLU 作为激活函数呢？

1年前
513
3
2

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

个人成就

文章被点赞 129

文章被阅读 60,266

掘力值 1,862

加入于

2024-04-23