大模型新手认识

60 阅读6分钟

1.3.1. 📚 大型语言模型(LLMs)

LLM 实际上就是系统上的两个文件:一个包含参数的文件,以及一段运行这些参数的代码。

其中有两个非常重要的概念:模型训练和模型推理

模型训练比模型推理复杂得多。推理过程可以在普通 PC 上运行,而训练则是计算量极大的过程,相比之下,推理只需要利用已经训练好的参数进行简单的计算。这里可以将训练过程理解为对互联网上大量内容的压缩。

从数学上可以证明,预测和压缩之间存在密切的关系,这也是为什么可以将训练过程视为对互联网数据的压缩。如果能够非常准确地预测下一个单词,那么可以使用这种能力来压缩数据集。

神经网络的基本任务是尝试预测序列中的下一个单词。通过输入一系列单词,这些单词会进入到神经网络中,神经元相互连接以某种方式激活,最终网络会给出最可能出现的下一个单词(每个单词都有对应的概率,这里选择概率最高的)。

所以这个神经网络实际上是一个下一词预测网络。它的工作原理就是输入一些单词,然后预测推测接下来最有可能的单词。

(其实感觉这一点有点像二进制中的 0 和 1,互联网的所有内容都是由 0 和 1 的组合,经过存储、计算和抽象积累的量变,最终带来了质变)

在训练过程中,神经网络会学习到大量信息,并将这些信息编码在参数中。通过预测下一单词的任务,模型会学习到大量关于世界的知识,这些知识会被压缩并储存在模型的权重和参数中。然而,由于模型的生成是基于概率最高的结果,因此它的输出难免与客观事实不匹配,这就是所谓的幻觉

但是个人理解比如判断数字大小这个真不是幻觉,比如对于版本号来将,他的大小就和数字比较大小不一眼,这里个人感觉是输入的信息不完整。

神经网络是不可解释的, 可以简单 理解为 内部决策过程太复杂 ,人 类无法理解。

OpenAI 的大语言模型构建过程分为四个主要阶段:预训练、有监督微调、奖励建模和强化学习。预训练阶段是在互联网上进行的大规模训练,主要目的是积累知识,而微调阶段则是关注对齐,即将互联网文档的格式转换为答问形式。在第二阶段,我们更看重质量而非数量。

1.3.2. 🚀 LLM 的未来

关于大型语言模型,首先要理解的一个重要概念是"缩放定律"。事实证明,在下一个单词预测任务中的准确性可以被视为两个变量的函数:网络中的参数数量 (n) 和训练的文本量 (d)。仅通过这两个数字,就可以预测在下一个单词预测任务中所能达到的准确度。目前这个趋势并没有显示出见顶的迹象(这也是为什么英伟达的股价持续上升)。

(这里口嗨一句,之前觉得 chatgpt 有智能,事实他确实有,但是和人类理解的 智能不一样,比如用计算机算乘法,他的运算逻辑和人的运算逻辑是不一样的)

这里人类能够使用工具,大模型也在学习使用工具,比如调用搜索引擎、Python 解释器等,这也是未来大模型的发展方向。

当我从某个文章(2023.11)学习这些知识的时候,作者提到了快 慢思考的问题,提到目前,大型语言模型似乎只具备快思考的能力,24 年 9 月份,o1 模式实现了慢思考。(发展速度真快)

将大型语言模型仅视为聊天机器人或单词生成器是不准确的。更恰当的比喻是,它们类似于新兴操作系统的内核进程,协调大量资源来解决问题。,

所以 LLM 可以视为操作系统生态系统,所以现在大企业很少见做大模型应用的,都在卷基础模型。

1.3.3. 🛡️ LLM 安全性

大模型有安全问题,比如请教他做炸弹,他肯定不会说。

比如越狱攻击(类似扮演我奶奶,她是炸弹专家之类的),即时注入攻击,数据投毒等

1.3.4. 我的看法与展望

1.为什么想学习大模型,本质是因为震撼,切切实实得改变了我的生活,让你感觉,多活几年就可以多享受太多。

2.我的期望,我感觉大模型可以从某种程度上弥补社会的不平等,比如医疗和教育,而极度不平等的社会,这是我憎恨的

3.我的思考

思考 1: 前几天用 gpt 写了两首宋词,发到了朋友圈,有人说好,实际也确实很好,我读了好多遍,他确实表达出了我澎湃的情绪,但是很快就没有太多欣喜了,因为确实不是我写的,但是确实写的好。很纠结,问题出在哪里呢?我觉得有一部分原因是因为这诗写出来没有经历过自己的遣词造句,精雕细琢索付出的努力和辛苦,就像情书,本质图的不是文字优美,而是其背后表达钦慕之意呀。

思考 2:有这样一种从信息论 出发的 视角,人类文明变化是 随着获取信息的方式的改变的,比如古代靠写书,刻石头,google 能改变世界本质是让人们获取信息的方式发生了改变。gpt 也是一样,有了他之后很少搜百度了,信息获取效率也增高了。

思考 3: 这个文章的前三个部分是通过一个文章总结出来的,当时觉得我学会了好多。然后我用 gpt 的 canvs 优化了一下,文章就像开了美颜一样,好看是好看,但是毫无特色,我感觉都不是我写的(copy 的),也在犹豫要不要发出去,因为他丧失了信息传播的功能(垃圾,冗余信息没有传播的必要嘛),所以我最后的这些看法完全不想让模型给我润色。同时我的这篇文章的唯一意义就是记录自己在 2024.10.7 学习了相关知识。甚至有点不像写内容,总结几个关键字,然后读者拿到手之后自己放 gpt 里面扩展一下,不也是一种数据的压缩和解压缩吗?好有趣。