BERT模型入门系列: Attention机制入门Attention模型在NLP领域用的风生水起，但是一直对attent

Attention模型在NLP领域用的风生水起，但是一直对attention模型的基本原理不理解，看了很多别人的文章，似乎是看懂了，但实际上在真正理解起来的时候，就是没办法说出个所以然来，所以用自己的理解方式来写一篇。

Encoder-Decoder模型

说起Attention模型，就不得不先说一下seq2seq模型，seq2seq解决的问题，简单说来就是解决一个句子映射到另外一个句子的问题，例如下面的应用场景：

机器翻译：待翻译的文本序列-->翻译文本序列

语音识别：声学特征序列-->识别文本序列

问答系统：问题描述单词序列-->生成答案单词序列

文本摘要：文本序列-->摘要序列

而基础的seq2seq模型主要包括Encoder、Decoder、以及固定长度的语义向量。Encoder-Decoder模型在《Sequence to Sequence Learning with Neural Networks》中提出。以机器翻译为例，展示一下Encoder-Decoder模型的基本原理

Encoder和Decoder是神经网络，可以是RNN或者LSTM等，我们以RNN为例，将模型展开，其流程如下图所示

Encoder

[公式] 、、、是输入序列，如若是机器翻译任务，那么、、、就是输入待翻译的词语。

Encoder是神经网络，可以是RNN、LSTM等。

以RNN为例，RNN的当前隐藏状态是上一个输入的隐藏状态和当前输入决定的，所以：

当前RNN隐藏节点状态计算

[公式]

[公式] 表示RNN当前隐藏状态

[公式] 表示上一个输入的隐藏状态

[公式] 表示当前的输入

在输入结束，得到了所有输入的隐藏层状态后，生成最后的语义向量C

语义向量C计算

[公式]

语义向量C是一个固定长度的向量，这个向量会作为Decoder的输入。

Decoder

同样，Decoder部分可以是RNN，也可以是LSTM，Decoder部分的输入是Encoder输出。 [公式] 、就是decoder解码出来的结果，如果是机器翻译任务，那么这个就是机器返回出来的结果。

这个阶段中，给定的语义向量 [公式] 和已经生成的输出序列、、...、，预测下一个输出单词yt

[公式]

也可以写作

[公式]

设 [公式] 为RNN的隐藏状态，那么，可以简写成

[公式]

即当前的输出 [公式] 有上一个输出、上一个输出的隐藏状态、Encoder输出的语义向量 ,经过函数运算得到，其中是一个非线性的神经网络，在这里为RNN

但是，这种方式存在缺陷：由于Encoder编码输出的语义向量是固定长度，对于比较长的输入，会有部分信息丢失，导致Decoder出来的结果不佳，针对这个问题，KyungHyun Cho等人对Encoder-Decoder模型进行改造，提出了早期的Attention模型（NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE）。

Attention模型:

为了解决固定长度语义向量导致的信息丢失问题，KyungHyun Cho等人引入了Attention模型，Attention模型的机制与人类翻译文章的思路相似，都是关注于要翻译的词，结合上下文进行翻译。Attention模型会寻找源语句对应的几个词，结合已经翻译出来的词语做相应的翻译。例如：我们翻译机器学习的时候，当翻译到机器的时候，Attention的注意力会集中在“机器”，这样，Decoder就可以看到Encoder的每个词的信息，而不局限于固定长度的隐藏向量而导致信息丢失。

具体流程如下：