第一章(树根) LLM综述
这篇文档为AI学习知识树起点
我个人认为学习AI应当从LLM出发,让我们从LLM出发了解他的大致工作原理后再去使用它,你会有不一样的收获。
/想要使用工具就必须要了解工具的构造、原理;/
在这卷,我将会讲解LLM的工作原理、相关名词等等 (只是简单介绍,如果想要详细学习一定要去看相关的文献,和深度解读) 。
接受——处理——输出
《马大帅》:21世纪现代人的通行证;外语;计算机和驾照;2023年之后:现代人的通行证:终身学习、AI、外语
##LLM概述
LLM(large language model)直译为大语言模型,也可以直接当做大家常识中的AI。
在市面上大家会听过有很多的“AI”名字:例如GPT、Gemini、文言一心、(LLaMa)等;但是你听过的这些AI名,其实大多数都是LLM的名字。
那么LLM为什么叫做大语言模型?或者说他为什么一定要叫这个名字呢?
接下来我们将会拆解这个“大语言模型”的真正含义
#首先我们来聊一聊“语言”的含义
LLM会被称作大语言模型是根据他的工作原理来决定的:它会接收来自使用者的指令,而指令的传递需要介质就像声音那样,声音需要在固液气等物质媒介来传播。
语言也是一种传播的媒介,在我们任何人沟通都会用到语言进行信息的交流;例如:以往我们使用的编程语言是想要和计算机进行连接,传递指令。
而在LLM的世界里这些被统合成为了一个传递方式便是语言(在此处我们先不深入多模态的问题);AI接受人的指令(语言输出),对指令处理后输出答案(语言输出)
#接下来我们来聊一聊“模型”
LLM他的工作原理,简单来说就是猜词游戏,在人类输出问题后他会根据数据的可能性进行猜测回答(以下内容以知名度最高的GPT所使用的模型原理进行说明)
我相信大家都有见过鹦鹉这种动物,再经过人类的驯化后能够模仿人类的语气在一些熟悉的场合说出人类的语言,但是这一切的前提都需要一个词语——“熟悉”
对此,我们的鹦鹉需要进行训练,而我们的大模型也同样如此。鹦鹉可以根据自己的记忆说出主人经常说的话甚至还会模仿腔调,大模型也可以;但是大模型也不仅仅是根据模仿这么简单
例如我驯化了一只鹦鹉
在“终身成长”这个词语我擦掉了“成长”这两字就变成了“终身XX”,这时LLM和鹦鹉就会开始猜测我后面的XX是什么?我想填入什么?
如果他是一只受过训练的鹦鹉,就有可能回答出“学习”这两字,因为我每一天都在说这个词语,并且鹦鹉也只会这一个词语,所以它只会出现回复这个词语和不回复的情况。
但如果是一个训练完成后的LLM,他就会根据每一个词语的权重和训练过的记忆来进行抉择;
例如:“学习”、“成长”这两个词语都出现在它的资料库中,正常二者就都会有50%的几率,但是这时LLM过往的训练出现干涉,他发现在他的资料库以及和我的聊天记录中出现了多次 “成长” 这个词,他就会根据以上的训练经历对权重进行调整,然后改变答案
但如果是一只完全没经过训练的LLM,他有可能会回复我各种词语“吃饭”、“走路”、“去游泳”等词语,因为权重并没有发生改变,而且不仅仅是词语的含义会有很大的差异,就连数量等也会发生改变
为什么“大”、一定要“大”吗?
那么为什么AI能够被训练成——“听话的鹦鹉”呢?
这里就和 “大模型” 有关了
通俗来讲,大模型的含义就单单指他的模型规模巨大,目前GPT4的训练数据已经超过1.8万亿。
这也是当前“通用”大模型的发展方向,因为transformer架构的使用可以让大量的知识得到高效率的利用,也就是俗话说的“大力出奇迹”
让大模型吸收各行各业的大量知识,就有可能达到奇妙的效果(有一定“量变引起质变的意思”)
那么现在我们可以尝试去理解LLM的含义了,通过海量的知识数据来进行训练“鹦鹉”,并通过“注意力”机制进行知识的学习和吸纳,通过海量的知识范本来对问题进行猜测和回答
(transformer架构由Attention is all you need产出,我们后面会介绍一些其他的NLP机制)
(论文地址:arxiv.org/abs/1706.03… 论文精读:zhuanlan.zhihu.com/p/46990010)
Transformer架构具体的工作原理可以看这里