人工智能大语言模型起源篇（一），从哪里开始序言：许多人最初接触人工智能都是在ChatGPT火热之际，并且大多停留在应用

序言： 许多人最初接触人工智能都是在ChatGPT火热之际，并且大多停留在应用层面。对于希望了解其技术根源的人来说，往往难以找到方向。因此，我们编写了《人工智能大语言模型起源篇》，旨在帮助读者找到正确的学习路径，了解大型语言模型的大致起源。本文将分为三个部分，介绍当前主流的大型语言模型架构Transformer（变换器）模型的起源及其发展历程。Transformer并非横空出世，而是人工智能领域研究者们在长期探索和实验中逐步发展起来的。

大型语言模型（LLM）早已经征服了当今的人工智能领域——这不是开玩笑。在短短五年多的时间里，大型语言模型——即变换器（Transformers）——几乎彻底改变了自然语言处理领域。而且，它们正在彻底改变计算机视觉和计算生物学等领域。

由于变换器对每个人的研究议程产生了如此大的影响，今天的这篇文章我想为那些刚刚入门的人工智能学习研究者和从业者整理一份简短的渐进式阅读清单。

建议按下面清单的先后顺序来阅读，这些则主要是专注于学术研究论文。当然，市场上还有很多其他有用的资源:

Jay Alammar 的《Illustrated Transformer》jalammar.github.io/illustrated…

Lilian Weng 的《一篇更技术性的博客文章》lilianweng.github.io/posts/2020-…

Xavier Amatriain 汇总并绘制的《所有主要变换器的目录和家谱》amatriain.net/blog/transf…

Andrej Karpathy 为了教育目的提供的《生成语言模型的最简代码实现》github.com/karpathy/na…

Sebastian Raschka的《讲座》sebastianraschka.com/blog/2021/d…

理解主要架构和任务

如果你是第一次接触变换器 / 大型语言模型，那么最好从头开始。

（1）Bahdanau、Cho 和 Bengio 于2014年发表的《通过联合学习对齐和翻译的神经机器翻译》（Neural Machine Translation by Jointly Learning to Align and Translate），arxiv.org/abs/1409.04…

如果你有几分钟的时间，我建议从上述论文开始。它介绍了一种用于递归神经网络（RNN）的注意力机制，以提高长序列建模能力。这使得RNN能够更准确地翻译更长的句子——这也是后来开发原始变换器架构的动机。

图片来源：arxiv.org/abs/1409.04…

（2）Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser 和 Polosukhin 于2017年发表的《Attention Is All You Need》，arxiv.org/abs/1706.03…

上面的论文介绍了原始的变换器架构，包括一个编码器和一个解码器部分，这两个部分后来会作为独立的模块变得非常重要。此外，这篇论文还介绍了一些概念，比如缩放点积注意力机制、多头注意力模块和位置输入编码，这些都成为了现代变换器的基础。

图片来源：arxiv.org/abs/1706.03…

（3）Xiong、Yang、He、K Zheng、S Zheng、Xing、Zhang、Lan、Wang 和 Liu 于2020年发表的《On Layer Normalization in the Transformer Architecture》，arxiv.org/abs/2002.04…

虽然上面这张来自《Attention Is All You Need》（arxiv.org/abs/1706.03…

举个例子，《Attention Is All You Need》中的变换器图将层归一化放在残差块之间，这与原始变换器论文中附带的官方github.com/tensorflow/…

《On Layer Normalization in the Transformer Architecture》arxiv.org/abs/2002.04…

所以，虽然目前关于使用Post-LN还是Pre-LN的讨论仍在继续，但也有一篇新论文提出了利用两者优势的方案：ResiDual：带有双残差连接的变换器（arxiv.org/abs/2304.14…

图片来源： arxiv.org/abs/1706.03… arxiv.org/abs/2002.04…

（4）Schmidhuber 于1991年发表的《Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks》，www.semanticscholar.org/paper/Learn…

这篇论文推荐给那些对历史细节以及与现代变换器（Transformers）原理上有相似性的早期方法感兴趣的人。

例如，在1991年，也就是大约在上述原始变换器论文（《Attention Is All You Need》）发布的二十五年半之前，Juergen Schmidhuber 提出了一个递归神经网络的替代方案，称为快速权重编程（Fast Weight Programmers，FWP）。FWP方法涉及一个前馈神经网络，通过梯度下降慢慢学习来编程另一个神经网络的快速权重变化。

这个与现代变换器的类比在这篇博客文章people.idsia.ch//~juergen/f…

在今天的变换器术语中，FROM 和 TO 分别被称为键（key）和值（value）。应用于快速网络的输入被称为查询（query）。本质上，查询通过快速权重矩阵处理，后者是键和值外积的和（忽略归一化和投影）。由于两个网络的所有操作都是可微的，我们通过加法外积或二阶张量积获得了快速权重变化的端到端可微的主动控制。[FWP0-3a] 因此，慢网络可以通过梯度下降学习在序列处理过程中快速修改快网络。这在数学上等价（除了归一化）于后来被称为具有线性自注意力的变换器（或线性变换器）。

正如上面博客摘录所提到的，这种方法现在被称为“线性变换器”或“具有线性化自注意力的变换器”，通过2020年在arXiv上发布的几篇论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》arxiv.org/abs/2006.16… Attention with Performers》arxiv.org/abs/2009.14…

2021年，论文《Linear Transformers Are Secretly Fast Weight Programmers》则明确展示了线性化自注意力和1990年代的快速权重编程之间的等价性。”

来源：基于people.idsia.ch//~juergen/f…