transforms机制Attention机制 1.第一个attention模型（基于Encoder编码-Decoder

Attention机制

1.第一个attention模型（基于Encoder编码-Decoder解码）的RNN/LSTM的，

每当所提出的模型生成一个句子时，它会在编码器隐藏状态中搜索一组可获得最相关信息的位置，这个想法被称为“注意力”

2.Attention机制如何发挥作用？

3.全局注意力和局部注意力

全部注意力（考虑全部隐藏状态）

局部注意力（考虑全部隐藏状态的一个子集）

1.transform的核心是编码器和解码器结构（两个组件之间的共生关系）

2.编码器和解码器的每一层都包括相同的子层

3.通过将输入嵌入与位置信息结合起来，位置编码使模型能够区分序列中元素的相对位置。

4.Transformer模型的一个显著特征是它能够同时关注输入序列的不同部分——这是通过多头注意力实现的。通过将查询、键和值向量分成多个头，并进行独立的自注意力计算

5.transform的工作流程

编码器（策划阶段）接收并处理输入信息（朋友的喜好）。

自注意力机制（统筹安排）识别信息之间的关联性并分配权重（考虑素食者和大多数人的喜好）。

解码器（执行阶段）根据编码器的输出和自注意力机制的结果生成最终的输出（准备聚会所需的物品）。

这样，Transformer模型就像一个高效的聚会组织者，能够根据不同的需求和关联性来完成任务。