Mamba: Linear-Time Sequence Modeling with Selective State Spaces 学习笔记
文章提出的问题:
当前基础模型(Foundation Models,FM)——Transformer存在时间成本高的问题,虽然有些工作旨在解决这个问题,但是抑制了模型的特征建模能力。因此,为了解决上述问题,作者提出了一种基于状态空间模型(State Space model,SSMs)的算法网络——选择状态空间模型(Selective State Space Model)。
Sequence建模的核心:
文章中作者提出了一个观点:序列建模就是要将序列压缩到一个很小的状态
Contribution
1、选择机制
添加”输入门“和”遗忘门“,能够选择重要输入,抑制不重要输入。设计了一种简单的选择机制,根据输入对 SSM 参数进行参数化(让 SSM 参数成为输入的函数)。这样模型就能过滤掉无关信息,并无限期地记住相关信息。