LearnLLM_AI

LearnLLM.AI

赞

93

|

搜索文章

大模型分布式训练并行技术（三）流水线并行

我们知道，大厂的高效在于大家都是流水线上的工人，每个人只负责自己的那一部分工作。在并行训练中，流水线并行是一种非常重要的技术，它可以将模型的训练过程分解为多个阶段，每个阶段由不同的设备负责。

1年前
377
1
评论

大模型分布式训练并行技术（三）流水线并行

大模型分布式训练并行技术（二）数据并行

数据并行（Data Parallelism）是一种常见的并行计算策略，它通过将大数据集分割成多个小批次（batches）或子集，然后在多个GPU上同时进行模型的训练。

1年前
547
1
评论

大模型分布式训练并行技术（二）数据并行

大模型分布式训练并行技术（一）综述

Meta使用了三种并行化方式：数据并行化、模型并行化和管道并行化。这三种并行化方式是大模型分布式训练的核心技术。在这个系列我将对这几种并行化方式进行详细介绍。

1年前
594
1
评论

大模型分布式训练并行技术（一）综述

大模型并行策略[中文翻译]

本文中我们将首先深入讨论各种 1D 并行技术及其优缺点，然后研究如何将它们组合成 2D 和 3D 并行，以实现更快的训练并支持更大的模型。

1年前
362
1
评论

每天5分钟搞懂大模型的分词器tokenizer（六）：BBPE

BBPE是一种基于BPE的分词器，它是BPE的一种变种，是由Google Brain团队提出的。BBPE的全称是Byte-level BPE，它是一种基于字节级别的BPE分词器。

1年前
866
1
评论

每天5分钟搞懂大模型的分词器tokenizer（六）：BBPE

每天5分钟搞懂大模型的分词器tokenizer（五）：SentencePiece

之前介绍的分词器，英文（拉丁语系有空格）和中文（没有空格）会采用不同的分词方式，在大模型中，我们需要一个统一的分词器，这个分词器需要能够处理多种语言,为此，我们需要一个统一的字符编码方式。

1年前
786
1
评论

每天5分钟搞懂大模型的分词器tokenizer（五）：SentencePiece

每天5分钟搞懂大模型的分词器tokenizer（四）：Unigram

在 SentencePiece 中经常使用 Unigram 算法,该算法是 AlBERT、T5、mBART、Big Bird 和 XLNet 等模型使用的标记化算法。

1年前
550
1
评论

每天5分钟搞懂大模型的分词器tokenizer（四）：Unigram

每天5分钟搞懂大模型的分词器tokenizer（三）：Wordpiece

WordPiece 是 Google 为预训练 BERT 而开发的标记化算法。此后,它在不少基于 BERT 的 Transformer 模型中得到重用。

1年前
440
2
评论

每天5分钟搞懂大模型的分词器tokenizer（三）：Wordpiece

每天5分钟搞懂大模型的分词器tokenizer（二）：BPE (Byte-Pair Encoding)

字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的，后来被OpenAI 在预训练 GPT 模型时用于分词器（Tokenizer）

1年前
1.4k
2
评论

每天5分钟搞懂大模型的分词器tokenizer（二）：BPE (Byte-Pair Encoding)

每天5分钟搞懂大模型的分词器tokenizer（一）：word level，char level，subword level

在大模型中，Tokenizer有三种常见的分词方式：word level，char level，subword level。我们会用几篇小短文来讲解这三种分词方式。

1年前
1.0k
3
评论

每天5分钟搞懂大模型的分词器tokenizer（一）：word level，char level，subword level

个人成就

文章被点赞 129

文章被阅读 60,250

掘力值 1,862

加入于

2024-04-23