长短期记忆网络 LSTM 的概念

104 阅读1分钟

循环神经网络 LSTM 的模型结构真心抽象,硬着头皮才最终看懂了些门路。如果英语水平还行的话,比较建议查看 参考资料 下方提供的文章和视频。

经典模型结构

image.png

图片来源 Understanding LSTM Networks -- colah's blog

个人画的草图

image.png

  • 图中蓝色部分负责遗忘长期记忆 C(t-1) 的功能,通过 sigmoid 的输出与 C(t-1) 矩阵相乘实现;
  • 图中橙色部分负责更新长期记忆 C(t-1) 的功能,通过 sigmoid 的输出影响矩阵相乘的结果实现;
  • 图中绿色部分控制输出短期记忆 h(t) 的功能,通过 sigmoid 的输出影响矩阵相乘的结果实现。
变量说明
x(t)当前输入
c(t-1)上一时序单元状态输出,对应长期记忆
h(t-1)上一时序输出,对应短期记忆
c(t)当前单元状态输出,对应长期记忆
h(t)当前输出,对应短期记忆

参考资料