Mamba

95 阅读1分钟

Mamba: Linear-Time Sequence Modeling with Selective State Spaces 学习笔记

文章提出的问题:

当前基础模型(Foundation Models,FM)——Transformer存在时间成本高的问题,虽然有些工作旨在解决这个问题,但是抑制了模型的特征建模能力。因此,为了解决上述问题,作者提出了一种基于状态空间模型(State Space model,SSMs)的算法网络——选择状态空间模型(Selective State Space Model)。

Sequence建模的核心:

文章中作者提出了一个观点:序列建模就是要将序列压缩到一个很小的状态

image.png

Contribution

1、选择机制

添加”输入门“和”遗忘门“,能够选择重要输入,抑制不重要输入。设计了一种简单的选择机制,根据输入对 SSM 参数进行参数化(让 SSM 参数成为输入的函数)。这样模型就能过滤掉无关信息,并无限期地记住相关信息。

2、硬件扫描算法

Mamba 伪代码

image.png