Attention机制
1.第一个attention模型(基于Encoder编码-Decoder解码)的RNN/LSTM的,
- 编码器 LSTM 用于处理整个输入句子并将其编码为上下文向量
- 解码器 LSTM 或 RNN 单元依次生成句子中的单词
每当所提出的模型生成一个句子时,它会在编码器隐藏状态中搜索一组可获得最相关信息的位置,这个想法被称为“注意力”
2.Attention机制如何发挥作用?
- 分解输入:假设您有一堆单词(或任何类型的数据)想要计算机理解。首先,计算机会将这些输入分解成更小的部分,例如单个单词。
- 挑选出重要的部分:然后,它会查看这些部分并决定哪些是最重要的。它会通过将每个部分与它心中的问题或“查询”进行比较来实现这一点。
- 分配重要性:根据每个部分与问题的匹配程度,为其分配一个分数。分数越高,该部分就越重要。
- 集中注意力:对每个部分进行评分后,系统会确定对每个部分应给予多少关注。得分较高的部分会获得更多关注,而得分较低的部分则会获得较少关注。
- 加权求和:最后,计算机将所有信息加起来,但会给重要的信息赋予更大的权重。这样,计算机就能更清楚地了解输入中最重要的信息。
3.全局注意力和局部注意力
全部注意力(考虑全部隐藏状态)
局部注意力(考虑全部隐藏状态的一个子集)
transform概述
1.transform的核心是编码器和解码器结构(两个组件之间的共生关系)
2.编码器和解码器的每一层都包括相同的子层
3.通过将输入嵌入与位置信息结合起来,位置编码使模型能够区分序列中元素的相对位置。
4.Transformer模型的一个显著特征是它能够同时关注输入序列的不同部分——这是通过多头注意力实现的。通过将查询、键和值向量分成多个头,并进行独立的自注意力计算
5.transform的工作流程
编码器(策划阶段)接收并处理输入信息(朋友的喜好)。
自注意力机制(统筹安排)识别信息之间的关联性并分配权重(考虑素食者和大多数人的喜好)。
解码器(执行阶段)根据编码器的输出和自注意力机制的结果生成最终的输出(准备聚会所需的物品)。
这样,Transformer模型就像一个高效的聚会组织者,能够根据不同的需求和关联性来完成任务。