LearnLLM_AI

LearnLLM.AI

赞

93

|

搜索文章

只会对文档进行RAG？10分钟了解如何进行多模态RAG

很多RAG是建立在文本的基础上的，但是现实的情况下，我们有很多图片甚至视频数据，我们有时候也会想搭建图片/视频的多模态RAG，让我们可以基于图片/视频进行问答。

1年前
308
1
评论

只会对文档进行RAG？10分钟了解如何进行多模态RAG

神经网络的激活函数（六）GELU和Mish

GELU通过高斯误差函数（即标准正态分布的累积分布函数）对输入进行平滑处理，从而提高模型的性能。GELU在许多任务中表现出色，特别是在自然语言处理（NLP）和计算机视觉任务中。

1年前
746
1
评论

神经网络的激活函数（六）GELU和Mish

神经网络的激活函数（五）门控系列GLU、Swish和SwiGLU

GLU（Gated Linear Unit，门控线性单元）是一种在深度学习中用于增强模型表现的激活函数。GLU通过引入门控机制，使得模型能够选择性地通过信息，从而提高模型的表达能力和性能。

1年前
1.4k
1
评论

神经网络的激活函数（五）门控系列GLU、Swish和SwiGLU

神经网络的激活函数（四）ELU和它的变种SELU

ELU激活函数是为了进一步改进ReLU及其变体（如Leaky ReLU和PReLU）的性能而提出的。ELU旨在解决ReLU的一些固有问题，特别是负区间的特性和输出均值的偏移。

1年前
801
1
1

神经网络的激活函数（四）ELU和它的变种SELU

神经网络的激活函数（三）ReLU和它的变种Leaky ReLU、PReLU

本文我们介绍深度学习的功臣ReLU及其变种，它们在神经网络中的广泛应用，对于提高网络的性能和加速训练具有重要意义。

1年前
721
1
评论

神经网络的激活函数（三）ReLU和它的变种Leaky ReLU、PReLU

神经网络的激活函数（二）Sigmiod、Softmax和Tanh

本文我们介绍三个古早的激活函数，虽然古老，但是在神经网络中仍然有着广泛的应用，尤其是Softmax作为输出层，仍然是统治地位.

1年前
384
1
评论

神经网络的激活函数（二）Sigmiod、Softmax和Tanh

什么是大模型复读机问题

LLMs复读机问题是指这些模型在生成文本时倾向于重复之前说过的内容或者重复某些常见的表达方式，而不是产生新颖或多样化的输出，这种现象在微调开源大模型时尤为常见。

1年前
604
1
1

神经网络的激活函数（一）综述

如果没有激活函数，神经网络无论有多少层，都只能表示输入和输出之间的线性关系，这大大限制了网络处理复杂问题的能力。激活函数通常在神经网络的每个神经元或节点上应用，它们帮助网络学习和表示复杂的函数。

1年前
474
1
评论

大模型分布式训练并行技术（五）混合并行

混合并行技术是指同时使用多种并行技术，比如数据并行和模型并行，或者数据并行和流水线并行，或者数据并行和张量并行。

1年前
680
1
评论

大模型分布式训练并行技术（五）混合并行

大模型分布式训练并行技术（四）张量并行

张量并行使用了矩阵乘法可以并行计算的特性，将模型的参数划分为多个部分，每个部分在不同的设备上进行计算，最后将结果进行汇总。下面，我们分别看FFN和Self-Attention的张量并行实现。

1年前
488
1
1

大模型分布式训练并行技术（四）张量并行

个人成就

文章被点赞 129

文章被阅读 60,244

掘力值 1,862

加入于

2024-04-23