chatGPT与自然语言处理·第一课笔记整理 | 豆包MarsCode AI刷题chatGPT与自然语言处理 1、基本概

chatGPT与自然语言处理

是一个AI模型，属于自然语言处理（NLP）领域，NLP是人工智能的一个分支。

自然语言，就是人们日常生活中接触和使用的英语、汉语、德语等等。

自然语言处理是指，让计算机来理解并正确地操作自然语言，完成人类指定的任务。

以检查机器是否能像人类一样思考，这项测试称为图灵测试。

具体方法：构建一个计算机对话系统，一个人和被测试的模型互相进行对话，如果这个人无法辨别对方究竟是机器模型还是另一个人，就说明该模型通过了图灵测试，计算机是智能的。

一次用户输入和一次模型对应的输出，叫做一轮对话。

 11png

ChatGPT 也可以回答用户的连续提问，也就是多轮对话，多轮对话之间是有信息关联的。

 12png

如果用户与 ChatGPT 对话的轮次过多，一般来讲模型仅会保留最近几轮对话的信息，此前的对话信息将被遗忘。

 13png

ChatGPT 在接收到用户的提问输入后，输出的文字并不是一口气直接生成的，而是一个字、一个字生成的，这种逐字生成，即生成式

是指使用人工编写的规则来处理自然语言

这些规则通常基于语法、语义和语用等方面的知识，可以用来解析和生成自然语言。

缺点：

基于统计的 NLP 则是利用机器学习算法从大量的语料库中学习自然语言的规律特征，在早期也被称为连接主义

标注数据 => 建立模型、确定输入输出 => 训练模型 => 利用已训练好的模型进行工作

在 ChatGPT 中，主要采用预训练（ Pre-training ）技术来完成基于统计的 NLP 模型学习

缺点：黑盒不确定性，即规则是隐形的，暗含在参数中。

所谓强化学习，就是一种机器学习的方法，旨在让智能体（agent，在 NLP 中主要指深度神经网络模型，就是 ChatGPT 模型）通过与环境的交互来学习如何做出最优决策。

基于统计的方式能够让模型以最大自由度去拟合训练数据集；而强化学习就是赋予模型更大的自由度，让模型能够自主学习，突破既定的数据集限制。

基于规则、基于统计、基于强化学习 这 三种方式，并不仅仅是一种处理自然语言的手段，而是一种思想。

NLP 的发展一直以来都在逐渐向基于统计的方式靠拢，最终由基于强化学习的方式取得完全的胜利，胜利的标志，即 ChatGPT 的问世；而基于规则方式逐渐式微，沦为了一种辅助式的处理手段。ChatGPT 模型的发展，从一开始，就在坚定不移地沿着让模型自学的方向发展进步着。

4、ChatGPT 的神经网络结构 Transformer

ChatGPT 是一个大型的神经网络，其内部结构是由若干层 Transformer 构成的，Transformer 是一种神经网络的结构。

Transformer 的核心是自注意力机制（Self-Attention），它可以帮助模型在处理输入的文字序列时，自动地关注到与当前位置字符相关的其他位置字符。自注意力机制可以将输入序列中的每个位置都表示为一个向量，这些向量可以同时参与计算，从而实现高效的并行计算。