首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
真忒修斯之船
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
93
文章 93
沸点 0
赞
93
返回
|
搜索文章
真忒修斯之船
4月前
关注
只会对文档进行RAG?10分钟了解如何进行多模态RAG
很多RAG是建立在文本的基础上的,但是现实的情况下,我们有很多图片甚至视频数据,我们有时候也会想搭建图片/视频的多模态RAG,让我们可以基于图片/视频进行问答。...
1
评论
分享
真忒修斯之船
4月前
关注
神经网络的激活函数(六)GELU和Mish
GELU通过高斯误差函数(即标准正态分布的累积分布函数)对输入进行平滑处理,从而提高模型的性能。GELU在许多任务中表现出色,特别是在自然语言处理(NLP)和计算机视觉任务...
1
评论
分享
真忒修斯之船
4月前
关注
神经网络的激活函数(五)门控系列GLU、Swish和SwiGLU
GLU(Gated Linear Unit,门控线性单元)是一种在深度学习中用于增强模型表现的激活函数。GLU通过引入门控机制,使得模型能够选择性地通过信息,从而提高模型的...
1
评论
分享
真忒修斯之船
4月前
关注
神经网络的激活函数(四)ELU和它的变种SELU
ELU激活函数是为了进一步改进ReLU及其变体(如Leaky ReLU和PReLU)的性能而提出的。ELU旨在解决ReLU的一些固有问题,特别是负区间的特性和输出均值的偏移...
1
1
分享
真忒修斯之船
4月前
关注
神经网络的激活函数(三)ReLU和它的变种Leaky ReLU、PReLU
本文我们介绍深度学习的功臣ReLU及其变种,它们在神经网络中的广泛应用,对于提高网络的性能和加速训练具有重要意义。...
1
评论
分享
真忒修斯之船
4月前
关注
神经网络的激活函数(二)Sigmiod、Softmax和Tanh
本文我们介绍三个古早的激活函数,虽然古老,但是在神经网络中仍然有着广泛的应用,尤其是Softmax作为输出层,仍然是统治地位....
1
评论
分享
真忒修斯之船
4月前
关注
什么是大模型复读机问题
LLMs复读机问题是指这些模型在生成文本时倾向于重复之前说过的内容或者重复某些常见的表达方式,而不是产生新颖或多样化的输出,这种现象在微调开源大模型时尤为常见。...
1
1
分享
真忒修斯之船
4月前
关注
神经网络的激活函数(一)综述
如果没有激活函数,神经网络无论有多少层,都只能表示输入和输出之间的线性关系,这大大限制了网络处理复杂问题的能力。激活函数通常在神经网络的每个神经元或节点上应用,它们帮助网络...
1
评论
分享
真忒修斯之船
4月前
关注
大模型分布式训练并行技术(五)混合并行
混合并行技术是指同时使用多种并行技术,比如数据并行和模型并行,或者数据并行和流水线并行,或者数据并行和张量并行。...
1
评论
分享
真忒修斯之船
4月前
关注
大模型分布式训练并行技术(四)张量并行
张量并行使用了矩阵乘法可以并行计算的特性,将模型的参数划分为多个部分,每个部分在不同的设备上进行计算,最后将结果进行汇总。下面,我们分别看FFN和Self-Attentio...
1
1
分享
真忒修斯之船
4月前
关注
大模型分布式训练并行技术(三)流水线并行
我们知道,大厂的高效在于大家都是流水线上的工人,每个人只负责自己的那一部分工作。在并行训练中,流水线并行是一种非常重要的技术,它可以将模型的训练过程分解为多个阶段,每个阶段...
1
评论
分享
真忒修斯之船
4月前
关注
大模型分布式训练并行技术(二)数据并行
数据并行(Data Parallelism)是一种常见的并行计算策略,它通过将大数据集分割成多个小批次(batches)或子集,然后在多个GPU上同时进行模型的训练。...
1
评论
分享
真忒修斯之船
4月前
关注
大模型分布式训练并行技术(一)综述
Meta使用了三种并行化方式:数据并行化、模型并行化和管道并行化。这三种并行化方式是大模型分布式训练的核心技术。在这个系列我将对这几种并行化方式进行详细介绍。...
1
评论
分享
真忒修斯之船
4月前
关注
大模型并行策略[中文翻译]
本文中我们将首先深入讨论各种 1D 并行技术及其优缺点,然后研究如何将它们组合成 2D 和 3D 并行,以实现更快的训练并支持更大的模型。...
1
评论
分享
真忒修斯之船
5月前
关注
每天5分钟搞懂大模型的分词器tokenizer(六):BBPE
BBPE是一种基于BPE的分词器,它是BPE的一种变种,是由Google Brain团队提出的。BBPE的全称是Byte-level BPE,它是一种基于字节级别的BPE分...
1
评论
分享
真忒修斯之船
5月前
关注
每天5分钟搞懂大模型的分词器tokenizer(五):SentencePiece
之前介绍的分词器,英文(拉丁语系有空格)和中文(没有空格)会采用不同的分词方式,在大模型中,我们需要一个统一的分词器,这个分词器需要能够处理多种语言,为此,我们需要一个统一...
1
评论
分享
真忒修斯之船
5月前
关注
每天5分钟搞懂大模型的分词器tokenizer(四):Unigram
在 SentencePiece 中经常使用 Unigram 算法,该算法是 AlBERT、T5、mBART、Big Bird 和 XLNet 等模型使用的标记化算法。...
1
评论
分享
真忒修斯之船
5月前
关注
每天5分钟搞懂大模型的分词器tokenizer(三):Wordpiece
WordPiece 是 Google 为预训练 BERT 而开发的标记化算法。此后,它在不少基于 BERT 的 Transformer 模型中得到重用。...
2
评论
分享
真忒修斯之船
5月前
关注
每天5分钟搞懂大模型的分词器tokenizer(二):BPE (Byte-Pair Encoding)
字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,后来被OpenAI 在预训练 GPT 模型时用于分词器(Tokenizer)...
2
评论
分享
真忒修斯之船
5月前
关注
每天5分钟搞懂大模型的分词器tokenizer(一):word level,char level,subword level
在大模型中,Tokenizer有三种常见的分词方式:word level,char level,subword level。我们会用几篇小短文来讲解这三种分词方式。...
2
评论
分享
下一页
个人成就
文章被点赞
114
文章被阅读
19,141
掘力值
1,726
关注了
0
关注者
28
收藏集
0
关注标签
4
加入于
2024-04-23