注意力机制:从生物学到人工智能

396 阅读9分钟

1. 引言

在日常生活中,我们每时每刻都在处理大量的信息。无论是视觉、听觉还是触觉,我们的感官系统都在不断地接收外界的信息。然而,我们的大脑并不能同时处理所有的信息,因此我们需要一种机制来帮助我们选择性地关注某些信息,而忽略其他信息。这种机制就是注意力

在人工智能领域,尤其是深度学习模型中,注意力机制也被广泛应用。它帮助模型在处理大量输入数据时,能够有选择地关注最重要的部分。本文将带你从生物学的角度理解注意力机制,并逐步过渡到其在人工智能中的应用。

2. 生物学中的注意力提示

2.1 注意力的稀缺性

注意力是一种稀缺的资源。当我们专注于某件事情时,我们实际上是在忽略其他事情。比如,当你正在阅读这篇文章时,你可能忽略了周围的噪音或其他视觉信息。这种选择性的关注是大脑为了更高效地处理信息而进化出的一种机制。

2.2 非自主性提示与自主性提示

在生物学中,注意力可以通过两种方式来引导:非自主性提示自主性提示

  • 非自主性提示:这是基于环境中物体的突出性和易见性。例如,当你面前有一张黑白报纸和一杯红色的咖啡时,红色的咖啡杯会自然而然地吸引你的注意力。这是因为红色在黑白环境中显得非常突出。

eye-coffee.svg

图1:由于突出性的非自主性提示(红杯子),注意力不自主地指向了咖啡杯

  • 自主性提示:这是基于我们的主观意愿。例如,当你喝完咖啡后,可能会决定去读一本书。这时,你会主动将注意力转移到书上,而不是被环境中的其他物体所吸引。

eye-book.svg

图2:依赖于任务的意志提示(想读一本书),注意力被自主引导到书上

这两种提示共同作用,帮助我们有效地分配注意力资源。

3. 查询、键和值:注意力机制的核心

在深度学习中,注意力机制的核心概念可以归结为三个关键元素:查询(Query)键(Key)值(Value)

3.1 查询(Query)

查询可以理解为我们想要关注的内容。在生物学中,查询类似于自主性提示,它是我们主动选择的关注点。在深度学习中,查询通常是一个向量,表示模型当前需要关注的内容。

3.2 键(Key)和值(Value)

键和值通常是成对出现的。键可以理解为非自主性提示,它是输入数据的某种特征表示。值则是与键对应的实际内容。在深度学习中,键和值通常是从输入数据中提取的特征。

3.3 注意力汇聚

注意力机制的核心思想是通过 注意力汇聚(Attention Pooling) 来将查询与键进行匹配,从而选择最相关的值。具体来说,模型会计算查询与每个键的相似度,然后根据相似度对值进行加权求和。这样,模型就能够有选择地关注最重要的信息。

qkv.svg

图3:注意力机制通过注意力汇聚将查询(自主性提示)和键(非自主性提示)结合在一起,实现对值(感官输入)的选择倾向

数学上,注意力汇聚可以表示为:

Attention(Q,K,V)=isoftmax(QKidk)Vi\text{Attention}(Q, K, V) = \sum_{i} \text{softmax}\left(\frac{Q \cdot K_i}{\sqrt{d_k}}\right) V_i

其中,QQ 是查询,KiK_i 是第 ii 个键,ViV_i 是第 ii 个值,dkd_k 是键的维度。

4. 形象生动地说明注意力汇聚

4.1 注意力汇聚的比喻:图书馆找书

想象一下,你是一个学生,正在图书馆里找一本关于“深度学习”的书。图书馆里有成千上万本书,但你不可能把每一本书都翻一遍。你需要一种高效的方法来找到最相关的书。这个过程就像注意力汇聚

  • 查询(Query):你脑子里有一个明确的需求:“我想找一本关于深度学习的书。”这就是你的查询,它代表了你当前的任务或目标。
  • 键(Key):图书馆里的每本书都有一个书名和标签(比如“人工智能”、“机器学习”、“深度学习”等)。这些书名和标签就是键,它们帮助你快速判断一本书是否和你的需求相关。
  • 值(Value):每本书的实际内容就是值。你最终的目的是找到内容最符合你需求的书。

注意力汇聚的过程就像你在图书馆里做以下事情:

  1. 你拿着你的需求(查询),去和每本书的标签(键)进行比较。
  2. 你会给每本书打一个分数,表示它和你的需求有多相关。比如,标签是“深度学习”的书得分最高,标签是“机器学习”的书得分中等,标签是“烹饪”的书得分最低。
  3. 最后,你根据这些分数,选择最相关的几本书(值)来阅读。

这个过程就是注意力汇聚:通过查询和键的匹配,找到最相关的值。

4.2 更形象的例子:点菜

再举一个更生活化的例子——点菜。

假设你去一家餐厅,菜单上有100道菜,但你只想点几道最适合你口味的菜。你怎么做呢?

  • 查询(Query):你脑子里有一个明确的需求:“我想吃辣的、不太油腻的菜。”这就是你的查询。
  • 键(Key):每道菜都有一个描述,比如“麻辣香锅”、“清蒸鲈鱼”、“红烧肉”等。这些描述就是键,它们帮助你判断这道菜是否符合你的需求。
  • 值(Value):每道菜的实际内容(味道、食材等)就是值。

注意力汇聚的过程是这样的:

  1. 你拿着你的需求(查询),去和每道菜的描述(键)进行比较。
  2. 你会给每道菜打一个分数,表示它和你的需求有多匹配。比如,“麻辣香锅”得分最高,“清蒸鲈鱼”得分中等,“红烧肉”得分最低。
  3. 最后,你根据这些分数,选择最符合你需求的几道菜(值)来点单。

4.3 数学公式的通俗解释

回到数学公式,注意力汇聚的公式是:

Attention(Q,K,V)=isoftmax(QKidk)Vi\text{Attention}(Q, K, V) = \sum_{i} \text{softmax}\left(\frac{Q \cdot K_i}{\sqrt{d_k}}\right) V_i

用点菜的例子来解释:

  • QQ 是你的需求(查询)。
  • KK 是每道菜的描述(键)。
  • VV 是每道菜的实际内容(值)。
  • QKidk\frac{Q \cdot K_i}{\sqrt{d_k}} 是你对每道菜的评分。
  • softmax\text{softmax} 是把这些评分转换成概率,表示你选择这道菜的可能性。
  • 最后,你把所有菜的评分和内容结合起来,得到你最终的选择。

4.4 注意力汇聚的核心思想

总结一下,注意力汇聚的核心思想就是:

  • 查询是你当前的任务或需求。
  • 键是输入数据的特征或标签。
  • 值是输入数据的具体内容。
  • 通过计算查询和键的匹配程度,找到最相关的值。

这个过程就像你在图书馆找书、在餐厅点菜一样,是一种高效的选择性关注机制。

4.5 为什么需要注意力汇聚?

在深度学习中,输入数据往往非常复杂(比如一篇文章、一张图片)。如果我们对所有数据一视同仁,模型可能会被无关信息干扰。注意力汇聚的作用就是:

  • 过滤噪声:忽略不重要的信息。
  • 聚焦重点:关注最重要的信息。
  • 提高效率:减少计算量,只处理相关的部分。

5. 注意力的可视化

为了更好地理解注意力机制,我们可以通过可视化的方式来展示注意力权重。假设我们有一个简单的例子,其中查询和键都是长度为10的向量。我们可以通过计算查询与每个键的相似度来得到注意力权重,然后使用热图来展示这些权重。

# d2l.py

def show_heatmaps(matrices, xlabel, ylabel, titles=None, figsize=(2.5, 2.5),
                  cmap='Reds'):
    """显示矩阵热图的函数

    参数:
    matrices: 形状为 (num_rows, num_cols, height, width) 的四维张量,每个子矩阵表示一个热图
    xlabel: 横轴标签
    ylabel: 纵轴标签
    titles: 每个子图的标题,默认为 None
    figsize: 整个热图的尺寸,默认为 (2.5, 2.5)
    cmap: 颜色映射方案,默认为 'Reds'
    """

    # 使用 SVG 显示,以获得更清晰的图片
    d2l.use_svg_display()
    # 获取矩阵的行数和列数(即热图的排列方式)
    num_rows, num_cols = matrices.shape[0], matrices.shape[1]
    # 创建子图网格,sharex 和 sharey 使所有子图共享坐标轴,squeeze=False 保证 axes 仍然是 2D 结构
    fig, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize,
                                 sharex=True, sharey=True, squeeze=False)

    # 遍历所有行和列,绘制每个小热图
    for i, (row_axes, row_matrices) in enumerate(zip(axes, matrices)):
        for j, (ax, matrix) in enumerate(zip(row_axes, row_matrices)):
            # 将矩阵数据转换为 NumPy 数组并显示为热图
            pcm = ax.imshow(matrix.detach().numpy(), cmap=cmap)
            # 设置横轴标签,只在最后一行的子图显示
            if i == num_rows - 1:
                ax.set_xlabel(xlabel)
            # 设置纵轴标签,只在第一列的子图显示
            if j == 0:
                ax.set_ylabel(ylabel)
            # 设置子图的标题(如果提供了标题列表)
            if titles:
                ax.set_title(titles[j])

    # 添加颜色条(colorbar)以指示热图的数值强度
    fig.colorbar(pcm, ax=axes, shrink=0.6)
import torch
import d2l

attention_weights = torch.eye(10).reshape((1, 1, 10, 10))
print(attention_weights)
"""
tensor([[[[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
          [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
          [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
          [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
          [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
          [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]]]])
"""
d2l.show_heatmaps(attention_weights, xlabel='Keys', ylabel='Queries', figsize=(5, 5))
d2l.plt.show()

在这个例子中,注意力权重矩阵是一个单位矩阵,表示只有当查询和键相同时,注意力权重为1,否则为0。通过热图,我们可以清晰地看到查询与键之间的关系。

10_1_attention.png

我们可以用一个课堂学习的场景来形象地说明这个注意力机制的示例

5.1 想象一个课堂场景:

你和 9 个同学一起上课(总共 10 个人),老师提问时,每个人都只听自己名字被叫到的那一刻。例如:

  • 老师喊:“小明,请回答第 1 题!” 小明只关注第 1 题,完全不管别的内容。
  • 老师喊:“小华,请回答第 2 题!” 小华只关注第 2 题,其他的东西都不在意。
  • ……
  • 老师喊:“小丽,请回答第 10 题!” 小丽只专注于第 10 题。

这样,每个学生(查询,Query)只关注 自己的题目(键,Key),不会看其他同学的题目。

5.2 用热图来比喻

如果把这个课堂情况画成热图:

  • 横轴是老师出的题目(Key)。
  • 纵轴是学生(Query)。
  • 颜色越深,表示这个学生对某道题的注意力越集中。

由于每个学生只看自己的题目,热图就会呈现一条对角线亮、其他地方暗的形状,表示:

  • 第 1 题只有小明在看,其他人不看。
  • 第 2 题只有小华在看,其他人不看。
  • ……
  • 第 10 题只有小丽在看,其他人不看。

这个场景对应于 torch.eye(10) 生成的单位矩阵。

5.3 为什么这个案例说明了注意力机制?

在现实生活中,学习通常不是这样死板的:

  • 如果老师讲的是一个复杂的概念(比如 “爱因斯坦的相对论”),你可能会同时关注多个信息来源,比如课本、老师的讲解、同学的讨论,而不是只盯着一个地方。
  • 在深度学习中,真正的注意力机制也是这样运作的,它允许查询(Query)关注多个相关的键(Key),而不是像这个例子一样“只盯着自己的一道题”。

这个示例展示的是注意力的一种极端情况(每个查询只关注一个键)。在更复杂的 Transformer 结构中,注意力机制可以动态调整,类似于:

  • 一个聪明的学生会结合多道题的知识点来解题,而不是只关注自己的一道题。
  • 在翻译句子时,单词之间的关系并不是一一对应的,而是存在更复杂的交互。

6. 小结

  • 注意力是稀缺的:无论是在生物学中还是在人工智能中,注意力都是一种有限的资源。
  • 非自主性提示与自主性提示:在生物学中,注意力可以通过非自主性提示和自主性提示来引导。
  • 查询、键和值:在深度学习中,注意力机制通过查询、键和值来实现选择性的关注。
  • 注意力汇聚:通过计算查询与键的相似度,模型可以对值进行加权求和,从而选择最重要的信息。
  • 注意力的可视化:通过热图,我们可以直观地展示注意力权重,帮助我们更好地理解模型的行为。

通过理解注意力机制,我们不仅能够更好地理解人类大脑的工作方式,还能够设计出更加高效的人工智能模型。希望这篇文章能够帮助你掌握注意力机制的核心概念,并在未来的学习和研究中灵活运用。