【transformer笔记】Task02 ：Attention和Transformer

2022-04-26 170 阅读2分钟

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

目录

1. seq2seq模型
2. attention
- 2.1 attention对seq2seq的改进
3. pytorch实现attention
- 3.2 位置编码

1. seq2seq模型

1.1 组成

seq2seq模型是由编码器（Encoder） 和 解码器（Decoder） 组成

编码器：把这些信息转换为一个向量（称为上下文（context））
解码器：解码器开始逐项生成输出序列中的元素

1.2 向量长度

上下文向量的长度取决于编码器 RNN 的隐藏层神经元的数量。

1.3 RNN 模型的输入

两个输入：

输入序列中的一个元素 x 2 x_2 x2（通过word embedding转换的一个向量）
一个 hidden state h 1 h_1 h1（隐藏层，前面那些rnn的输出）

2. attention

2.1 attention对seq2seq的改进

编码器会把更多的数据传递给解码器：编码器把所有时间步的 hidden state（隐藏层状态）传递给解码器，而不是只传递最后一个 hidden state（隐藏层状态）
注意力模型的解码器在产生输出之前，做了一个额外的处理。为了把注意力集中在与该时间步相关的输入部分。解码器做了如下的处理：

查看所有接收到的编码器的 hidden state（隐藏层状态）。其中，编码器中每个 hidden state（隐藏层状态）都对应到输入句子中一个单词。
给每个 hidden state（隐藏层状态）一个分数（我们先忽略这个分数的计算过程）。
将每个 hidden state（隐藏层状态）乘以经过 softmax 的对应的分数，从而，高分对应的 hidden state（隐藏层状态）会被放大，而低分对应的 hidden state（隐藏层状态）会被缩小。

3. pytorch实现attention

3.2 位置编码

torch.randn(*sizes, out=None) → Tensor
功能：从标准正态分布（均值为0，方差为1）中抽取的一组随机数。返回一个张量