Attention Is All You Need(图像上使用)

304 阅读1分钟

参考文章:Attention Is All You Need 用于NLP的讲解

注意力机制(Attention)

目的:是用于捕捉图像的感受野。

Transformer

  • Transformer的本质是一个Encoder-Decoder的结构。在encoder中,数据首先会经过一个叫做‘self-attention’的模块得到一个加权之后的特征向量 ZZ ,这个 ZZ 便是论文公式1中的Attention(Q,K,V)Attention(Q,K,V)
Attention(Q,K,V)=softmax((QKT)/(dk))V1Attention(Q,K,V)=softmax((QK^T)/√(d_k ))V (1)
  • 得到 ZZ 之后,它会被送到encoder的下一个模块,即Feed Forward Neural Network。这个全连接有两层,第一层的激活函数是ReLU,第二层是一个线性激活函数,可以表示为
FFN(Z)=max(0,ZW1+b1)W2+b22FFN(Z)=max(0,ZW_1+b_1)W_2+b_2 (2)

目前在学习图像分割,transformer中的注意力机制还是挺重要的,持续更新。。。。。。