自注意力机制 self-attention应用场景输入输入是a sequence of vectors，且长度可变

应用场景

输入

输入是a sequence of vectors，且长度可变

传统的全连接神经网络：无法处理可变长的sequence
如果做变换，例如每个vector输入给一个FC，会丢失全局信息
如果考虑一定window，由于输入的sequence不定长，除非选一个极大的window - 影响算力 & 可能导致overfitting
因此，考虑self-attention机制：不定长sequence + 全局信息
实际上，CNN和RNN也可以处理不定长的问题，具体的比较见全文最后。

sentence：如何将词汇表示成vector
- one-hot encoding：假设了每个词汇之间独立
- word embedding：www.youtube.com/watch?v=X7P…
audio：每个frame视作一个向量
- attention各个vector之间的相关性，不必靠模型找，可以作为输入（哪些edge无需考虑）
graph：每个节点视作一个向量

输出

针对不同的输出，在self-attention后面加不同的模块，例如sequence-labeling，经过self-attetion之后，再经过N个全连接网络即可。也可以多层叠加：self-attention处理整个sequence的信息，fully-connected network处理单个vector的信息，交替进行。

Each vector has a label - sequence labeling: POS tagging, labeling potential customers, etc.
The whole sentence has a label: sentiment analysis
Model decides the number of labels itself - seq2seq : 翻译，语音辨识等