LSTM(Long Short_term Memory)是RNN的“升级版”,LSTM很好的解决了RNN在长期及以上的缺陷,所以使用LSTM解决序列问题是很友好的,按照李宏毅教授的话来说那就是“很 work”。
LSTM比起RNN多了三个”门”,可以理解为处理信息的一个路径,分别是“遗忘门”、“输入门”、“输出门”。
(PPT摘自李宏毅教授)
当在t时刻输入一个序列中的数据时,序列经过“遗忘门”时,会将重要的信息保存在Memory Cell当中,然后在t+1时刻Memory Cell中的保留的数据也会参与到运算中,然后再次保存,进行t+2时刻........大概用“套娃”来形容更容易理解,直到结束。
这是在网上找到的一个gif图,红的圆圈代表“sigmoid 函数”,蓝色的圆圈代表“tanh 函数”,