大模型新手认识1.3.1. 📚 大型语言模型（LLMs） LLM 实际上就是系统上的两个文件：一个包含参数的文件，以及

1.3.1. 📚 大型语言模型（LLMs）

LLM 实际上就是系统上的两个文件：一个包含参数的文件，以及一段运行这些参数的代码。

其中有两个非常重要的概念：模型训练和模型推理

模型训练比模型推理复杂得多。推理过程可以在普通 PC 上运行，而训练则是计算量极大的过程，相比之下，推理只需要利用已经训练好的参数进行简单的计算。这里可以将训练过程理解为对互联网上大量内容的压缩。

从数学上可以证明，预测和压缩之间存在密切的关系，这也是为什么可以将训练过程视为对互联网数据的压缩。如果能够非常准确地预测下一个单词，那么可以使用这种能力来压缩数据集。

神经网络的基本任务是尝试预测序列中的下一个单词。通过输入一系列单词，这些单词会进入到神经网络中，神经元相互连接以某种方式激活，最终网络会给出最可能出现的下一个单词（每个单词都有对应的概率，这里选择概率最高的）。

所以这个神经网络实际上是一个下一词预测网络。它的工作原理就是输入一些单词，然后预测推测接下来最有可能的单词。

（其实感觉这一点有点像二进制中的 0 和 1，互联网的所有内容都是由 0 和 1 的组合，经过存储、计算和抽象积累的量变，最终带来了质变）

在训练过程中，神经网络会学习到大量信息，并将这些信息编码在参数中。通过预测下一单词的任务，模型会学习到大量关于世界的知识，这些知识会被压缩并储存在模型的权重和参数中。然而，由于模型的生成是基于概率最高的结果，因此它的输出难免与客观事实不匹配，这就是所谓的幻觉。

但是个人理解比如判断数字大小这个真不是幻觉，比如对于版本号来将，他的大小就和数字比较大小不一眼，这里个人感觉是输入的信息不完整。

神经网络是不可解释的，可以简单理解为内部决策过程太复杂，人类无法理解。

OpenAI 的大语言模型构建过程分为四个主要阶段：预训练、有监督微调、奖励建模和强化学习。预训练阶段是在互联网上进行的大规模训练，主要目的是积累知识，而微调阶段则是关注对齐，即将互联网文档的格式转换为答问形式。在第二阶段，我们更看重质量而非数量。

1.3.2. 🚀 LLM 的未来

关于大型语言模型，首先要理解的一个重要概念是"缩放定律"。事实证明，在下一个单词预测任务中的准确性可以被视为两个变量的函数：网络中的参数数量 (n) 和训练的文本量 (d)。仅通过这两个数字，就可以预测在下一个单词预测任务中所能达到的准确度。目前这个趋势并没有显示出见顶的迹象（这也是为什么英伟达的股价持续上升）。

（这里口嗨一句，之前觉得 chatgpt 有智能，事实他确实有，但是和人类理解的智能不一样，比如用计算机算乘法，他的运算逻辑和人的运算逻辑是不一样的）

这里人类能够使用工具，大模型也在学习使用工具，比如调用搜索引擎、Python 解释器等，这也是未来大模型的发展方向。

当我从某个文章（2023.11）学习这些知识的时候，作者提到了快慢思考的问题，提到目前，大型语言模型似乎只具备快思考的能力，24 年 9 月份，o1 模式实现了慢思考。（发展速度真快）

将大型语言模型仅视为聊天机器人或单词生成器是不准确的。更恰当的比喻是，它们类似于新兴操作系统的内核进程，协调大量资源来解决问题。，

所以 LLM 可以视为操作系统生态系统，所以现在大企业很少见做大模型应用的，都在卷基础模型。

1.3.3. 🛡️ LLM 安全性

大模型有安全问题，比如请教他做炸弹，他肯定不会说。

比如越狱攻击（类似扮演我奶奶,她是炸弹专家之类的），即时注入攻击，数据投毒等

1.3.4. 我的看法与展望

1.为什么想学习大模型，本质是因为震撼，切切实实得改变了我的生活，让你感觉，多活几年就可以多享受太多。

2.我的期望，我感觉大模型可以从某种程度上弥补社会的不平等，比如医疗和教育，而极度不平等的社会，这是我憎恨的

3.我的思考，

思考 1：前几天用 gpt 写了两首宋词，发到了朋友圈，有人说好，实际也确实很好，我读了好多遍，他确实表达出了我澎湃的情绪，但是很快就没有太多欣喜了，因为确实不是我写的，但是确实写的好。很纠结，问题出在哪里呢？我觉得有一部分原因是因为这诗写出来没有经历过自己的遣词造句，精雕细琢索付出的努力和辛苦，就像情书，本质图的不是文字优美，而是其背后表达钦慕之意呀。

思考 2：有这样一种从信息论出发的视角，人类文明变化是随着获取信息的方式的改变的，比如古代靠写书，刻石头，google 能改变世界本质是让人们获取信息的方式发生了改变。gpt 也是一样，有了他之后很少搜百度了，信息获取效率也增高了。

思考 3：这个文章的前三个部分是通过一个文章总结出来的，当时觉得我学会了好多。然后我用 gpt 的 canvs 优化了一下，文章就像开了美颜一样，好看是好看，但是毫无特色，我感觉都不是我写的（copy 的），也在犹豫要不要发出去，因为他丧失了信息传播的功能（垃圾，冗余信息没有传播的必要嘛），所以我最后的这些看法完全不想让模型给我润色。同时我的这篇文章的唯一意义就是记录自己在 2024.10.7 学习了相关知识。甚至有点不像写内容，总结几个关键字，然后读者拿到手之后自己放 gpt 里面扩展一下，不也是一种数据的压缩和解压缩吗？好有趣。