小白的大模型冒险

101 阅读12分钟

我们从ChatGPT开始,一步步讲到Transformer大语言模型,最后再聊聊人工智能,这样慢慢了解大模型和AI的内容

image.png

1️⃣ ChatGPT是什么

大家都在用,那么他到底是什么呢?

表面上看,它只是一个好用的聊天机器人,但实际上背后是整个生成式AI技术的崛起。

2022年11月,本来使用的不太聪明的聊天机器人突然变得超级聪明了,这主要归功于OpenAI推出的ChatGPT, 它背后用的是叫做【GPT】(Generative Pre-trained Transformer,生成型预训练变换器,一种OpenAI公司推出的大型深度学习模型,特别擅长处理和生成自然语言文本)的技术,简单说就是通过学习大量的网络文本,能够理解人类的语言,根据聊天的上下文进行互动,并且根据对话内容直接给出经过整理、高度相关且易于理解的答案或解决方案

你可以把它想象成一个读了很多书、知识渊博的朋友,无论你聊什么话题,它都能接得上话,提供帮助或者仅仅是陪你聊聊天。跟传统聊天机器人不同的是,它更像是搜索引擎,能给于你想知道的一切,而和传统搜索引擎又不一样的是,你不用自己筛选信息,ChatGPT给出的答案又准又好。

image.png

一问一答,它还能记住之前的对话内容,让你的多轮对话连贯以及相关,给出的答案也足够清晰。

当然也不是万能的,它总是会胡编乱造,逻辑性也不够强

  • 大模型的容易胡编乱造一些虚假事实,也就是幻觉(Hallucination)现象
  • 大模型本质上是统计模型,其自身无法从根本上解决这一问题
    • ChatGPT在很多领域可以“创造答案”,但当用户寻求正确答案时,ChatGPT也有可能给出有误导的回答
    • GPT4也无法完全解决幻觉问题,增大模型规模和训练量只能一定程度缓解即使接入搜索引擎,生成与检索的平衡仍是难题

2️⃣ GPT,生成式预训练变换模型又是什么

GPT是ChatGPT系统中的核心大模型,也是现阶段最先进的自然语言模型代表。

生成式预训练变换模型技术是AIGC(人工智能生成内容)领域的一种关键技术,采用的方法是使用Transformer-decoder的架构,也就是只使用了Transformer的解码器,专注于生成自然语言文本。它通过大量阅读网上的文字资料(预训练),学会理解人类的语言和各种表达方式。然后,它能够根据学到的知识生成新的、听起来自然的文字(生成式)。这个过程中,它还能灵活地调整和变换内容,以适应不同的对话情境(变换模型),生成新的、自然流畅的文本。

GPT训练流程,来源于官网(openai.com/index/chatg…

image.png

  • 收集提示信息(prompt)和人工形成的任务示例(demonstration),并用监督学习方法训练模型。
  • 将初始模型用在新的对比数据上,生成多个输出,人工对这些输出进行排序,排序结果用于训练奖励模型。
  • 使用PPO(Proximal Policy Optimization)强化学习算法训练奖励模型。

image.png

image.png

为什么是生成式大模型火了

随时随地能用到,并且真的很好用,也更有启发和学习意义

生成式AI之所以比判别式AI更火,主要是因为它能够创造新的内容,如文本、图像和音乐,具有很高的创新性和多样性。技术进步TransformerGANs使得生成式AI的性能大幅提升,应用场景广泛,包括艺术创作、娱乐、个性化推荐等,用户体验也更好。相比之下,判别式AI虽然在分类和识别任务上非常有用,但其应用相对固定,缺乏生成式AI那种创造性的吸引力。

3️⃣ Transformer又是什么

Transformer是GPT改良前的基础模型,它完全基于注意力机制, 完全不用重复和卷积,因而这些模型在质量上更优,同时更易于并行化,并 且需要的训练时间明显更少

人工智能领域之前主流的序列转换模型都基于复杂的循环神经网络 (RNN)卷积神经网络 ( CNN) ,包含编码器和解码器,而现在两部分无论是GPT、LLaMa系列,还是国内讯飞星火、百度文心等大模型,基本上都是基于Transformer模型(完全基于注意力机制,摒弃循环和卷积)。可以说,Transformer架构是目前主流AI大模型的核心,由论文《Attention is All You Need》2017年提出。

编解码大概介绍

image.png

Transformer主要由左边N个Encoder和右边N个Decoder连接而成, 可以简单理解为Transformer主要包括以下步骤:

  1. N个编码器(Encoder),通过注意力机制获取输入文字的特征;
  2. N个解码器(Decoder)也以类似的方式工作,用注意力机制获取当前上下文的特征;
  3. 以步骤2得到的上下文特征为基础,参考步骤1得到的输入文字的特征,预测出下一个要输出单词;
  4. 把新输出的单词拼接到上下文,回到步骤2继续循环,直到完成所有输出。

Transformer架构设计到技术点以及算法较多,模型算法较复杂,如下图,后续我们再详细剖析,有一套Transformer模型的可视化网站可帮助理解流程。

image.png

相较于上一代模型RNN,优势在哪里

特性RNN/LSTM/GRUTransformer
并行计算能力顺序处理,难以并行化,训练速度较慢并行处理整个序列,训练速度快,效率高
长距离依赖建模通过递归结构捕捉,但容易受梯度消失问题影响自注意力机制直接关注任意位置,更好地捕捉长距离依赖
可扩展性随着序列长度增加,训练时间和内存需求线性增长可通过增加层数和头数扩展模型容量,训练时间相对稳定
表示学习依赖隐藏状态捕获上下文信息,容量有限自注意力机制提供丰富的上下文信息,多头注意力增强特征提取
优化与并行化顺序处理特性限制了并行化和优化天然支持并行计算,易于在GPU和TPU上进行优化和加速
灵活性和多功能性主要用于序列建模任务,其他NLP任务表现有限可应用于多种NLP任务,包括翻译、生成、分类等,多功能性强

4️⃣ 大模型LLM是什么

大模型是预训练大模型简称,Open Al2018年提出,采用预训练+微调的训练模式,在大规模数据上进行训练后能快速适应一系列下游任务的模型

大模型通常参数量巨大,例如OPEN AI GPT-3 1750亿参数,其核心是具有海量知识归纳能力

大模型发展

image.png

5️⃣ AIGC是什么

AIGC是一种通过AI实现内容生成的一种方式,主要核心在于Transformer模型,上述的GPT是Transformer模型在自然语言处理领域中的升级版本,ChatGPT是使用GPT模型的应用系统

AIGC是“AI Generated Content”的缩写,指的是使用人工智能技术来自动生成各种形式的内容。这些内容可以是文字、图片、音频、视频等,广泛应用于多个领域,如媒体、娱乐、广告、教育等。

image.png

AIGC怎么发展的

内容生态发展可以分为四个阶段:专家生成内容(PGC)、用户生成内容(UGC)、AI辅助生产内容及AI生成内容(AIGC)。

image.png

相较于上一代分析式AI, AIGC的优势

  • 分析式AI:专注于理解和解释现有数据,通过模式识别、分类等方法来做出决策或预测。它通常用于解决特定问题,如风险评估、市场趋势分析等。分析式AI其学习的知识局限于数据本身
  • 生成式AI:基于学习的数据集创建新的内容或解决方案。这类AI能够生成文本、图像、音频甚至是视频等内容,展现出高度的创造力和灵活性。生成式AI在总结归纳数据知识的基础上可生成数据中不存在的样本

image.png

发展以及应用情况

AIGC依赖于先进的深度学习技术大规模预训练模型,例如Transformer架构、GANs(生成对抗网络)和VAEs(变分自编码器)。这些技术让AIGC能够生成高质量、自然的内容,并且可以在多个任务上表现出色。

image.png

AICG的发展也是大模型技术的发展

时间段技术/工具主要特点及突破点应用示例
早期 (2000s)基于规则的系统, RNN初步尝试使用AI生成简单的内容; 依赖人工定义的规则和模板简单聊天机器人, 自动摘要
2010s初LSTM, GRU, CNN深度学习兴起, 更好的序列建模能力; 开始出现较为复杂的文本生成文本摘要, 机器翻译, 情感分析
2017-2018Transformer, GANs引入Transformer架构; GAN用于图像生成; 预训练模型开始流行BERT, GPT系列, StyleGAN, 图像合成
2019-2020大规模预训练模型BERT, RoBERTa等在NLP任务上取得优异成绩; CLIP等多模态模型出现语言理解, 对话系统, 多模态搜索
2021-2022DALL·E, CLIP, VQ-VAE跨模态生成技术发展; AI生成更加多样化和高质量的内容文字转图像, 视频生成, 游戏内容生成
2023-至今ChatGPT, Midjourney, Stable DiffusionAI生成内容进入实用阶段; 用户体验大幅提升; 商业化加速写作助手, 艺术创作, 设计辅助, 客服机器人

image.png

6️⃣ AI是什么

Artificial Intelligence Generated Context,即可以利用人工智能技术自动产生内容,常见如代码生成,文本问答等

AI是怎么发展的

AI从最初的构想到今天如此广泛地应用于各个领域,经历了很长时间的发展和波折。

image.png

AI大事件

image.png

AI技术发展的层次

我们正处于ANI向AGI过渡的阶段。现有的AI系统在某些特定任务上已经非常强大,但在理解和处理复杂多变的任务方面,仍然远远不及人类。

image.png

AI技术分类

image.png

image.png

知识工程

  • 基于手工设计规则建立专家系统(~80年代末期) 结果容易解释
  • 系统构建费时费力
  • 依赖专家主观经验,难以保证一致性和准确性

image.png

机器学习

  • 基于数据自动学习(90年代中期~)
  • 减少人工繁杂工作,但结果可能不易解释 提高信息处理的效率,且准确率较高
  • 来源于真实数据,减少人工规则主观性,可信度高

📚其他问题

梯度是什么,模型训练时为什么要用到梯度的概念

梯度

想象你站在一座山的某个位置,梯度就像是告诉你从当前位置往下走最快的方向和陡峭程度。具体来说:

  • 方向:梯度告诉你往哪个方向走可以最快地下山。
  • 陡峭程度:梯度还告诉你这个方向有多陡峭,即你走一步会下降多少高度。

在数学上,梯度是一个向量,它包含了函数在某一点上各个方向的变化率。对于一个二维平面(比如 f(x,y)),梯度是一个有两个分量的向量,分别表示 x 和 y 方向上的变化率。

image.png

深度学习为什么要用到梯度的概念?

在深度学习中,我们希望训练一个模型来完成特定的任务,比如图像分类或语言翻译。为了实现这一点,我们需要调整模型中的参数(权重和偏置),使得模型在给定数据集上的表现最好。这通常通过最小化一个损失函数来实现,损失函数衡量了模型预测值与实际值之间的差距。

假设你正在训练一个简单的线性回归模型 y=wx+b,其中 w 是权重,b 是偏置。你的目标是最小化均方误差损失函数 L。

  1. 初始化参数:随机选择 w 和 b 的初始值,比如 w=0.5 和 b=0.2。
  2. 前向传播:给模型输入一些数据 x,计算预测值 y^=0.5x+0.2。
  3. 计算损失:使用均方误差损失函数 L=(y−y^)2 来计算损失。
  4. 计算梯度:计算损失函数对 w 和 b 的梯度,即 ∂w/∂L 和 ∂b/∂L。
  5. 更新参数:根据梯度的负方向更新 w 和 b,比如 w=w−α⋅∂w/∂L 和 b=b−α⋅∂b/∂L,其中 α 是学习率,控制每次更新的步长。
  6. 重复步骤2到5:多次迭代,直到损失函数不再显著减小。

过拟合和欠拟合

举例线性回归,参数合理且满足线性,慢需要一定的泛化性为训练正常。

image.png

欠拟合

模型不能很好地拟合训练数据,在训练集上的错误率比较高。

欠拟合一般是由于模型能力不足造成的,说明其对训练样本的一般性质尚未学好。

过拟合

学习器把训练样本学习得“太好”将训练样本本身的特点当做所有样本的一般性质,导致泛化性能下降。

过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。