首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
LearnLLM_AI
掘友等级
LearnLLM.AI
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
93
文章 93
沸点 0
赞
93
返回
|
搜索文章
最新
热门
大模型分布式训练并行技术(三)流水线并行
我们知道,大厂的高效在于大家都是流水线上的工人,每个人只负责自己的那一部分工作。在并行训练中,流水线并行是一种非常重要的技术,它可以将模型的训练过程分解为多个阶段,每个阶段由不同的设备负责。
大模型分布式训练并行技术(二)数据并行
数据并行(Data Parallelism)是一种常见的并行计算策略,它通过将大数据集分割成多个小批次(batches)或子集,然后在多个GPU上同时进行模型的训练。
大模型分布式训练并行技术(一)综述
Meta使用了三种并行化方式:数据并行化、模型并行化和管道并行化。这三种并行化方式是大模型分布式训练的核心技术。在这个系列我将对这几种并行化方式进行详细介绍。
大模型并行策略[中文翻译]
本文中我们将首先深入讨论各种 1D 并行技术及其优缺点,然后研究如何将它们组合成 2D 和 3D 并行,以实现更快的训练并支持更大的模型。
每天5分钟搞懂大模型的分词器tokenizer(六):BBPE
BBPE是一种基于BPE的分词器,它是BPE的一种变种,是由Google Brain团队提出的。BBPE的全称是Byte-level BPE,它是一种基于字节级别的BPE分词器。
每天5分钟搞懂大模型的分词器tokenizer(五):SentencePiece
之前介绍的分词器,英文(拉丁语系有空格)和中文(没有空格)会采用不同的分词方式,在大模型中,我们需要一个统一的分词器,这个分词器需要能够处理多种语言,为此,我们需要一个统一的字符编码方式。
每天5分钟搞懂大模型的分词器tokenizer(四):Unigram
在 SentencePiece 中经常使用 Unigram 算法,该算法是 AlBERT、T5、mBART、Big Bird 和 XLNet 等模型使用的标记化算法。
每天5分钟搞懂大模型的分词器tokenizer(三):Wordpiece
WordPiece 是 Google 为预训练 BERT 而开发的标记化算法。此后,它在不少基于 BERT 的 Transformer 模型中得到重用。
每天5分钟搞懂大模型的分词器tokenizer(二):BPE (Byte-Pair Encoding)
字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,后来被OpenAI 在预训练 GPT 模型时用于分词器(Tokenizer)
每天5分钟搞懂大模型的分词器tokenizer(一):word level,char level,subword level
在大模型中,Tokenizer有三种常见的分词方式:word level,char level,subword level。我们会用几篇小短文来讲解这三种分词方式。
下一页
个人成就
文章被点赞
129
文章被阅读
60,250
掘力值
1,862
关注了
0
关注者
43
收藏集
0
关注标签
4
加入于
2024-04-23