直播回顾 | 长序列建模技术

34 阅读9分钟

B站直播预告首图.gif

由东北大学自然语言处理实验室主办、小牛翻译协办的小牛翻译直播间(NiuTrans Talk),于8月10日成功举办,我们荣幸地邀请到了来自东北大学自然语言处理实验室的刘新宇博士作为嘉宾,为广大关注大语言模型的朋友们带来了生成式大语言模型技术分享系列的第八期报告——《长序列建模技术》

image.png

本次报告继续为大家带来生成式大语言模型关键技术细节的相关分享,由刘新宇博士介绍“长序列建模技术”,主要分为三个部分。第一部分刘新宇博士介绍了序列建模背景,包括为什么要建模更长的序列,Transformer建模长序列的问题以及大语言模型可建模的序列长度。第二部分从三个不同的维度介绍现有长序列建模技术,包括基于Memory、Attention、Engineering的改进。最后基于上述内容进行了深入的思考与总结。

在报告后的Q&A环节,刘新宇博士与各平台的网友就大模型相关技术提问进行了广泛讨论,进一步加强了对该类大语言模型的认知,以下是本环节的问题和解答:

Q1:如何让Transformer更高效处理长序列?

A1:实际上我们在下一期的直播中,我们会讲这种高效方法,本期我们是讲这种长序列方法。实际上,长序列和高效它们可以看作是一对兄弟吧,它们没有那么分的开的。我做长序列,实际上像刚才说的第二类方法,也是如何把这个Transformer的attention从幂次的复杂度降低为一个线性的复杂度,这一类其实就是属于一种高效方法了。我觉得如果同学对这一类方法感兴趣的话,其实可以在线性注意力这类去探索探索。

Q2:想学习大语言模型,应该从哪个开源模型开始?

A2:这个当然是推荐目前可能生态最完整的LLaMA了,包括最近出的LLaMA-2。但是LLaMA-2好像目前中文版本只有7b开源出权重了,13b好像还没有开源出来。我觉得后面如果开源的话,非常推荐去尝试,因为LLaMA-2的效果还是很不错的。

Q3:长序列数据的长度对模型性能有什么影响?

A3:就像我们说的这个序列长度,它作为我们模型运算时张量的一个维度,它实际上对模型的这个计算次数,包括像这个内存占用还是有蛮大影响的。那这里说的性能可能主要理解为计算次数这一类。实际上模型长度呈线性增加的时候,像我说的,它的注意力复杂度还是成平方次增加的,所以说它的显存也是呈平方次增加的。所以说它可以非常占用计算和显存的资源,长序列。那我除了影响这个模型的一个计算和它的一个显存占用以外,那我对模型效果会有什么影响,可能长序列长对模型效果影响是一个比较积极比较正向的。就是我序列越长,我可能可以利用的上下文就越长,就可以给模型更多的信息。所以说如果序列比较长,包括像这种大模型,这种多轮也是需要更长的上下文窗口。所以说建模如果序列越长,那模型性能我觉得可能越好。但是它会影响它的这种计算和显存占用,这个问题是必须要解决的。

Q4:长序列建模是否会面临计算资源的挑战?

A4:长序列建模当然会面临计算资源的挑战。像我前面说的,就是像这个显存,不知道大家现在手里都是什么卡,目前我能拿到的80G显存的卡,就是我实际上放个13b模型,我可能放个2k或者4k的max token,就已经很紧巴了。那实际上目前如果再用更长的序列去做,那我就必须把模型切的很碎,切到每一个卡上,这样我才可以让模型占的显存更小,然后给它输入更长的序列。所以说序列长度会不会占用计算资源,答案是肯定的,它一定非常占用计算资源。

Q5:位置编码对长序列建模有什么影响?是否可以从位置编码的角度优化长序列建模?

A5:位置编码其实对长序列就像我们从最早的XL技术开始说,它就是两个改进,它也改进了位置编码。就是我如果采用一种绝对位置编码形式肯定是不行的。我可能需要用一些相对位置编码,然后在更长距离的位置给它做一些分桶,类似于这种技术。但我们可以从位置编码的角度去优化这种长序列建模,实际上目前对于很多很多技术,对于位置编码都有一些调整。包括像我们前面说的一个非常简单的方法,像位置插值,实际上它也是从位置编码角度去改了一下,就可以优化长序列嘛。实际上位置编码面对长序列的影响是什么?就是位置编码外推性越好,可能在更长序列上我去建模它的一个效果就更好。那这一类方法我觉得还是挺有研究价值的。

Q6:大语言模型中的涌现现象是不是伪科学?

A6:这个问题非常犀利啊,涌现现象是不是伪科学?我觉得以我现在的这个水平,我可能没法给一个非常准确的答案。但是我可以说的是,涌现实际上是很多人都认可的一个情况。就是实际上模型为什么突然会受到大家关注?为什么大家感觉它的能力这么强,你别说是一些使用ChatGPT的普通人了。就连我这种研究者,我可能对ChatGPT的出现,我都是有一个吃惊的反应的。那实际上这就说明了它不是一步一步走到今天的,它的一个提升不是一个线性提升,它可能确实就是这样突然出现的一个提升,那这个东西叫涌现,我觉得没什么问题的。但是当然也有人说涌现是因为我设置的指标不对或者评价方法不对,才会有一个这种断崖式的上升。但是我们今天不说指标,不说方法,从我们个人的体验来看,这个东西它出现确实还是挺让人吃惊的。那我觉得它的能力超出预期,那可能对于我来说,它就是具备涌现,它的能力就是突然出现的。

Q7:是否有一些特定的数据增强技术可以提高模型的泛化能力?

A7:数据增强和模型泛化,其实我个人之前在硕士阶段也做过一些类似的研究。我当时做的主要是情感分析,我通过一些数据增强,让模型在一些OOD的场景上表现的很好。但是在大模型这个时代,这个泛化通常它可能代表含义有点不一样了。比如说它在未见样本的泛化上其实还是很好的。那可能在未见任务的泛化上还有待考究。通常情况下,如果大模型会做翻译,ABC过来,可能能翻译的很好。但是我在一些没有见过的任务上,泛化能力可能需要我们再去探索一下。但你说这个数据增强技术提高模型的方法能力。我目前认为数据增强技术,可能在大模型时期用来做泛化,这个是没什么必要的。因为它已经见过了非常非常多的数据,你要用数据增强之后,提升大模型的泛化能力,我个人觉得好像没有这个必要。

Q8:模型的超参数调整和网格搜索等方法是否适用?

A8:这个实际上仍然是适用的。实际上在我们自己的实验过程中,我们也会调一些超参和做一些GridSearch,就是所说的网格搜索。因为实际上训练大模型某种程度上也是在炼丹,就是有很多这种超参,可能设置成学习率适当高一些,低一些都会有一些影响,实际上对超参还是蛮敏感的。所以说这些传统的,比如说你有一些调超参的经验,你有一些做GridSearch的经验,我觉得在这个时代还是非常有用。

image.png

以上就是直播问答环节的全部内容,下期报告《模型压缩与高效神经网络》将于8月31日18:30与您相见。更多关于报告的详细内容以及观看直播回放可于小牛翻译云平台视频号或机器翻译学堂获取。NiuTrans Talk,是由小牛翻译主办的,每期将邀请到不同领域的机器翻译专家进行讲解,分享行业干货知识,带你走进机器翻译的世界。更多精彩内容尽在小牛翻译直播间 ,想了解更多有关机器翻译的内容请关注机器翻译学堂或小牛翻译官方微博号,与小牛翻译一起探讨机器翻译技术。

关于我们

专注于机器翻译技术基础研究50年,拥有百余人的机器翻译产学研团队,自主研发以中文为核心的NiuTrans机器翻译系统,支持388种语言随心互译。通过丰富的应用与功能,为用户提供机器翻译服务全栈式解决方案,致力于为机器翻译产业化应用提供基础平台,帮助企业级用户在国际业务中消除语言障碍。