【大模型】大模型基础知识学习(一)

157 阅读6分钟

一、大模型的演变

1、大模型的前身:人工智能。

大模型为何称为大模型?参数非常多,所以称为大模型。

2、人工智能: 人工智能是一个广泛涉及计算机科学,数据分析,统计学,机器工程,语言学,神经科学,哲学,和心理学等多个领域的学科。通俗的说,人工智能可以把人的思想进行量化,帮助提高解决问题的效率。

3、机器学习:可分为监督学习、无监督学习及强化学习

(1)监督学习:明确告诉机器,数据特征是什么,需人为提供数据对象的类别

(2)无监督学习:没有预设的类别标识,机器自动学习数据分布并将相似数据对象归为同类

(3)强化学习:反馈机制,机器自己通过反馈吸收总结,最终得出结论

4、深度学习

机器学习的一个分支,主要使用神经网络模型对数据进行学习和表示。

深度学习算法试图模拟人类大脑的工作方式,灵感来源于神经生物学,它通过对大量数据的学习,自动提取出数据的高层次特征和模式,从而实现图像识别,语音识别,自然语言处理等任务。

按照架构不同,神经网络可分为:卷积神经网络(CNNs),循环神经网络(RNNs),Transformer网络等。

5、生成式人工智能

深度学习的子集,使用大模型提供基础,在大量原始,未标记的数据基础上,对深度学习模型进行预训练,使机器能够学习语言甚至图像,并能够根据需要自动生成内容。

6、发展时间线

(1)2021年斯坦福大学发布了基础模型(大模型)

(2)2022年11月,chatGPT问世,它是一种先进的人工智能语言模型,专为对话交互而设计,具有强大的自然语言理解和生成能力,可以完成撰写论文,邮件,脚本,文案,翻译,代码等任务。chatgpt的发布标志着AI大模型在语言理解与生成能力上的重大突破,对全球AI产业产生深远影响,开启人工智能大模型应用的新篇章。

(3)2023年三月,百团大战时期,多个企业发布各自研发的的大语言模型产品,百度【文心一言】,阿里巴巴【通义千问】,商汤科技【商量SenseChat】,360【360智脑】华为【盘古大模型】,科大讯飞【1+N认知大模型】昆仑万维【天工大模型】京东【言犀】腾讯【混元】

(4)2023年8月阿里巴巴发布通义千问系列的开源大模型,并相继推出7B(约70亿参数)72B(约720亿参数)等不同参数规模的大语言模型版本。

二、大模型的使用和训练

1、大模型的使用:

一问一答,需学会如何提问题。

2、大模型的训练

分为三个阶段:

(1)预训练:相当于监督学习,提升通用能力;大模型在这个阶段会学习各种不同种类的语料,学习到语言的统计规律和一般知识,但是大模型在此阶段,只学会了补全句子,并不一定能回答出你想要的答案。此时便需要进入第二步,SFT,监督微调,让它能够回答出我们想要的答案。

(2)SFT:监督微调,在此阶段,大模型可以学习各种人类对话的语料,甚至是非常专业的垂直领域知识,在监督微调过程之后,按照人类的意图去回答专业领域的问题。但是,当前阶段大模型的回答,有可能并不符合人类的偏好,比如一些敏感,反面的言论,(话不能乱说)此时,大模型需要与人类价值观进行对齐。因此我们需要对大模型进行RLHF,基于人类反馈的强化学习。

(3)RLHF:基于人类反馈的强化学习,在这个阶段,它会针对同一个问题进行多次回答,人类会对这些回答进行打分,大模型会学习如何输出分数最高的答案。

三、大模型的特点和分类

1、大模型的特点:

(1)规模和参数量大:庞大的规模,数亿级别到数千亿级别

(2)适应性和灵活性强:能通过微调或少量样本学习高效地迁移到各种下游任务,有很强的跨域能力

(3)广泛数据集的预训练:使用大量多样化的数据进行预训练,能够掌握语言,图像等数据的通用特征

(4)计算资源需求大:巨大的模型规模带来高昂的计算和资源需求,包括但不限于数据存储,训练时间,能量消耗和硬件设施。

2、大模型的分类

按照应用场景,大致可以分为两类

(1)大语言模型(LLM)

大语言模型专注于自然语言处理,旨在处理语言,文章,对话等自然语言文本,他们通常基于深度学习架构,经过大模型文本数据集训练而成,能够捕捉语言的复杂性,包括语法,语义,语境以及蕴含的文化和社会知识。语言大模型典型应用包括文本生成、问答系统、文本分类、机器翻译、对话系统等,示例包括GPT系列(OpenApi),Bard(chrome),通义千问(阿里云)

(2)多模态模型,又可以细分为计算机视觉模型和音频处理模型等。

多模态大模型能够同时处理和理解来自不同感知通道(如文本、图像、音频)等的数据,并在这些模态之间建立关联和交互。它能够整合不同类型的输入信息,进行跨模态推理,生成和理解任务。多模态大模型应用涵盖视觉问答、图像描述生成、跨模态检索,多媒体内容理解等领域。

四、大模型的工作流程

1、分词化(Tokenization)与词表映射

分词化有不同的粒度分类:词粒度、字符粒度、子词粒度 分词化将段落和句子分割成更小的分子(token),每一个token会通过预先设置好的词表,映射为一个token_id,一句话最终会被表示为一个元素为token_id的列表

2、大语言模型生成文本过程

大语言模型的工作概括来说是根据给定的文本预测下一个 token。对我们来说,看似像在对大模型提问,但实际上是给了大模型一串提示文本,让它可以对后续的文本进行推理。

大模型的推理过程不是一步到位的,当大模型进行推理时,它会基于现有的 token,根据概率最大原则预测出下一个最有可能的 token,然后将该预测的 token 加入到输入序列中,并将更新后的输入序列继续输入大模型预测下一个 token,这个过程叫做自回归。直到输出特殊 token(如 <EOS>,end of sentence,专门用来控制推理何时结束)为止。

image.png