ChatGPT 的流行证明了自然语言处理 (NLP) 已经走了多远。GPT-3、GPT-4 和 BERT 等 Transformer 架构模型能够进行类人对话,有些甚至可以用来编写复杂的代码。
虽然 GPT 是市场领导者,但 BERT 实际上是 2018 年出现的第一个语言模型。但哪个更好呢?GPT 和 BERT 有什么区别?
GPT-3(Generative Pre-trained Transformer 3)是 OpenAI 于 2020 年 6 月推出的自回归语言模型。它采用了具有 1750 亿个参数的 transformer 架构,使其成为有史以来构建的最大的语言模型之一。
GPT-3 可以生成自然语言文本,也可以回答问题、作诗,甚至撰写完整的文章。ChatGPT 是由 GPT 提供支持的生成式 AI 的典型示例。
它被认为是自然语言处理的游戏规则改变者,具有广泛的潜在应用,包括聊天机器人、语言翻译和内容创建。
GPT-4 是一系列 GPT 模型中最新和最大的,如果您订阅了 ChatGPT Plus就可以使用。GPT-4 比 GPT-3 模型大六倍,估计有 1 万亿个参数,使其更加准确。
什么是BERT?
BERT(Bidirectional Encoder Representations from Transformers)是 Google 在 2018 年创建的一种预训练语言表示模型,用于微调 NLP 应用程序。与其他使用单向注意力流的 NLP 模型不同,BERT 使用双向流,这使得它可以使用来自上下文的上下文加工过程中的两个方向。
这使模型能够理解上下文中单词的含义,进而更好地理解语言结构。借助 BERT,谷歌现在可以为复杂的查询提供更准确的搜索结果——尤其是那些依赖于“for”、“to”和“from”等介词的查询。
GPT 和 BERT 之间的主要区别
现在您对 GPT 和 BERT 有了一个简要的了解,让我们讨论一下这两种语言模型之间的主要区别。
建筑学
架构是指构成机器学习模型的众多层。GPT 和 BERT 使用不同的模型。BERT 专为双向上下文表示而设计,这意味着它处理从左到右和从右到左的文本,从而允许它从两个方向捕获上下文。
相比之下,人类从左到右(或从右到左,取决于您的语言环境)阅读文本。BERT 使用掩码语言建模目标进行训练,其中句子中的某些单词被掩码,模型的任务是根据周围上下文预测缺失的单词。
这种预训练方法允许 BERT 学习深度上下文表示,使其对情感分析、问答和命名实体识别等 NLP 任务非常有效。
相比之下,GPT 是一种自回归模型,这意味着它从左到右按顺序生成文本,根据前面出现的单词预测句子中的下一个单词。
GPT 使用单向(因果)语言建模目标进行训练,它根据先前单词的上下文预测下一个单词。这是 GPT 在内容生成方面如此受欢迎的主要原因之一。
训练数据
BERT 和 GPT 在使用的训练数据类型上有所不同。BERT 使用掩码语言模型进行训练,这意味着某些单词被掩码,算法必须预测下一个单词可能是什么。这有助于训练模型并使其在上下文中更加准确。
与 GPT 一样,BERT 在大规模文本语料库上进行训练。原始数据集是在英语维基百科和 BooksCorpus 上训练的,该数据集包含大约 11,000 本未出版的书籍,总计约 8 亿个单词,来自小说、科学和计算等各种类型。
BERT 可以在不同的语言模型上进行预训练,如上所述,它可以针对特定应用程序进行训练,并增加了对该预训练模型进行微调的选项。
相反,GPT-3 是在 WebText 数据集上训练的,WebText 数据集是一个大型语料库,包含来自维基百科、书籍和文章等来源的网页。它还包括来自 Common Crawl 的文本,Common Crawl 是一个公开可用的 Web 内容存档。它还可以针对特定目的进行微调。
至于 GPT-4,训练数据信息有点稀缺,但 GPT-4 很可能是在类似多样化的数据集上训练的,可能包括更新的来源和更大的数据量,以提高其对自然语言和它产生上下文相关响应的能力。
用例
虽然两者都是高度通用的 NLP 模型,但它们的架构差异使它们在几个方面有所不同。例如,BERT 更适合以下用例:
- 情感分析: BERT 可以更好地理解给定文本的整体情感,因为它可以从任一方向分析单词。
- 命名实体识别:BERT 能够识别特定文本片段中的不同实体,包括位置、人员或组织。
- 回答问题:由于其超强的理解能力,BERT 更能够从文本中提取信息并准确地回答问题。
GPT 学习模型也毫不逊色。虽然情绪分析可能不是它的强项,但 GPT 在其他几个应用程序中表现出色:
- 内容创建:如果您使用过 ChatGPT,您可能已经知道这一点。在内容创建方面,GPT 胜过大多数其他模型。只需写一个提示,它就会产生一个完美连贯(尽管并不总是准确)的响应。
- 总结文本: 只需在 ChatGPT 中复制粘贴一大段文本,然后让它对其进行总结。它能够在保留核心信息的同时总结文本。
- 机器翻译: GPT 可以针对将文本从一种语言翻译成另一种语言进行微调,这要归功于它能够根据上下文生成文本。
可用性
与允许任何人利用 GPT 模型的 ChatGPT 不同,BERT 并不那么容易获得。首先,您必须下载最初发布的用于BERT 的Jupyter Notebook,然后使用 Google Colab 或 TensorFlow 设置开发环境。
如果您不想担心使用Jupyter Notebook或不太懂技术,您可以考虑使用 ChatGPT,它就像登录网站一样简单。但是,我们还介绍了如何使用 Jupyter Notebook,这应该能为您提供一个良好的起点。
BERT和GPT展示AI的能力
BERT 和 GPT 训练模型是人工智能能力的明显例子。ChatGPT 更受欢迎,并且已经产生了几个额外的应用程序,例如 Auto-GPT,它们正在破坏工作流程并改变工作职能。
尽管人们对 AI 的采用及其对工作的意义持怀疑态度,但也存在良好的潜力。谷歌和 OpenAI 等许多公司已经在努力建立控制措施并进一步规范 AI 技术,这预示着未来的好兆头。