Facebook AI Research(FAIR)开源了Expire-Span,这是一种深度学习技术,可以学习输入序列中哪些项目应该被记住,从而降低AI的内存和计算要求。FAIR表明,纳入Expire-Span的Transformer模型可以扩展到数万个项目的序列,与以前的模型相比,性能有所提高。
该研究小组在即将举行的国际机器学习会议(ICML)上发表的一篇论文中描述了该技术和几个实验。Expire-Span允许顺序人工智能模型 "忘记 "那些不再相关的事件。当纳入自我关注模型,如Transformer,Expire-Span减少了所需的内存量,使模型能够处理更长的序列,这是提高许多任务性能的关键,如自然语言处理(NLP)。使用Expire-Span,该团队训练的模型可以处理高达128k的序列,比以前的模型多了一个数量级,与基线相比,准确性和效率都有所提高。研究科学家和论文合著者Angela Fan和Sainbayar Sukhbaatar在FAIR的博客上写道。
作为我们研究更像人类的人工智能系统的下一步,我们正在研究如何将不同类型的记忆融入神经网络。因此,从长远来看,我们可以使人工智能更接近人类的记忆,具有比当前系统更快的学习能力。我们相信Expire-Span是一个重要的、令人兴奋的进步,朝着这种未来的人工智能驱动的创新迈进。
一些常见的人工智能应用,如图像说明或语言翻译,可以被建模为序列学习;也就是说,预测数据序列中的下一个项目。变形器神经网络架构是序列学习的常见选择,特别是在自然语言处理(NLP)领域;例如,OpenAI的GPT-3中的 "T "代表 "变形器"。一个Transformer有一个自我注意机制,允许网络 "记住 "序列中以前的项目;然而,由于自我注意可以将序列中的每个项目与其他每个项目联系起来,自我注意的计算和记忆复杂性是O(n^2)\),其中_n_是可处理的最大序列长度。由于GPU的内存限制,这使得序列长度的实际限制为1,024项左右。
一些研究人员提出了对注意力机制的修改,以增加最大序列长度。2019年,OpenAI引入了稀疏变形器,将注意力的复杂度降低到/(O(n\sqrt{n})/)。去年,谷歌开源了Performer,它将复杂性进一步降低到\(O(n)\)。其他技术包括谷歌的DeepMind子公司在2019年开发的Compressive Transformer,以及同样在2019年由Expire-Span的Sukhbaatar领导的FAIR团队发布的Adaptive Span。
一个Transformer维护着一连串的隐藏状态或 "记忆",而模型在每个时间步骤的输出是由这些记忆的组合计算出来的。Expire-Span通过计算每个记忆的_生存时间_(TTL)来工作。训练损失被更新以惩罚较长的TTL,这促使模型只保留相关记忆。为了防止对较长序列的过度拟合,在训练期间随机缩短记忆。
为了评估Expire-Span的性能,该团队选择了三种基线Transformer模型--Transformer-XL、Compressive Transformer和Adaptive-Span--并比较了模型的准确性以及GPU内存和训练速度。这些模型被用于几个强化学习(RL)和NLP任务。Expire-Span在大多数实验中的表现优于基线;例如,在序列复制任务中,Expire-Span扩展到128k的序列长度,达到52.1%的准确率,而Transform-XL在2k的序列长度上的准确率为26.7%。