循环神经网络 LSTM 的模型结构真心抽象,硬着头皮才最终看懂了些门路。如果英语水平还行的话,比较建议查看 参考资料 下方提供的文章和视频。
经典模型结构
个人画的草图
- 图中蓝色部分负责遗忘长期记忆 C(t-1) 的功能,通过 sigmoid 的输出与 C(t-1) 矩阵相乘实现;
- 图中橙色部分负责更新长期记忆 C(t-1) 的功能,通过 sigmoid 的输出影响矩阵相乘的结果实现;
- 图中绿色部分控制输出短期记忆 h(t) 的功能,通过 sigmoid 的输出影响矩阵相乘的结果实现。
| 变量 | 说明 |
|---|---|
| x(t) | 当前输入 |
| c(t-1) | 上一时序单元状态输出,对应长期记忆 |
| h(t-1) | 上一时序输出,对应短期记忆 |
| c(t) | 当前单元状态输出,对应长期记忆 |
| h(t) | 当前输出,对应短期记忆 |