1.paper
Neural machine translation by jointly learning to align and translate 2016
2.keypoint
- 1.soft attention
- 2.additive attention
3.简介
原seq2seq模型的瓶颈在于将多个输入单元压缩成一个定长的向量。在长句翻译时,效果明显下降。为了解决这个Issue,文章提出了“软”对齐的方法。 该模型将每一个输入词都映射到一个vector,形成了一个vector序列, 在翻译当前词时,通过模型自动找到源句子中与该词相关的若干词,组成一个vector子序列作为decoder的输入。
4.模型
4.1 encoder:
一个双向RNN
4.2 decoder
每个rnn单元的输入包括上一个rnn的hidden states 和一个context vec。
每一个context vec 其实是由三部分构成的:
encoder hidden states
decoder hidden states
source target的对齐信息 (对齐来自stm,原意是在翻译当前句子时,标识原句有哪些词已经用过了。)
比较有意思的是score的求法:
score a其实是输出和输入过一个前馈网络得到的值,该值度量了当前输出相对于之前输入的词的权重关系。这个前馈网络和seq2seq模型一起学习。
5.实验
每一个小格的明暗度代表了对应纵横刻度的两个词的权重, 越亮表示权重越大, 在翻译时贡献的信息越多。