直播回顾|生成式大语言模型系列直播第二期——Transformer进阶技术

124 阅读5分钟

B站直播预告首图.gif 5月11日,由东北大学自然语言处理实验室主办,小牛雅智、小牛翻译协办的小牛翻译直播(NiuTrans Talk)与大家见面了。本次邀请到了东北大学自然语言处理实验室的李北博士做客小牛翻译直播间,为关注大语言模型的各位朋友带来了生成式大语言模型技术分享系列的第二期报告《Transformer进阶技术》。 

image.png

本次报告李北博士延续上一期《Transformer基础技术》,继续对Transformer进阶技术展开深入讲解。李北博士分别详细介绍了Transformer模型的训练和推断过程,以及当前大型语言模型常用的思维链技术。李北博士结合自身经验分享了高效训练和推断Transformer模型的技巧,其中训练过程包括预处理、损失计算、反向传播等训练神经网络的基础知识,以及分布式训练方法;推断过程则包括预测方式、采样方法,重点介绍了利用大型语言模型进行推断所常用的思维链技术。李北博士的两期报告能够帮助NLP研究者更清晰、全面地掌握大模型时代的Transformer方法。

image.png

在报告后的Q&A环节,李北博士各平台的网友就大模型相关技术提问进行了广泛讨论,进一步加强了对该类大语言模型的认知,以下是本环节的问题和解答:

Q1:研究AI模型需要深入学习算法吗?

A1:AI,从我的角度来说,对模型、算法的一个积累肯定是非常有必要的,这里的算法可能包含的种类有很多。比如说你不能对Transformer这类模型或者大语言模型、GPT3这类的模型,一点认知都没有,然后只会脚本式的一些训练推断,对它内在的机理没有一个大致清晰的理解的话,你可能只会在某些短期的时候胜任当前的工作。那等后面比如说像大模型这个时代,我们可能一些同学觉得是不是都采用这种API访问的方式就足够了,实际上这肯定是不行的。包括现在很多大语言模型,它逐渐开源之后,如何去进一步地迭代更新,迭代就是让这个模型如何训练得更好,如何推断得更好。没有对整个模型内在的机理有一个清晰的认识的话,是很难去胜任这种后续的研究工作。我觉得所以说就是不能不求甚解,肯定是都要学习一些的。至少对Transformer这类模型要有一个非常清晰的认识。甚至比如说你之后要进行一些具体模块的调优,如果说你都不知道在哪儿去改,或者是说如何去改的话,实际上整个科研的迭代是非常吃力的。

Q2:Transformer如何实现并行化?

A2:实际上我们这个Slides里面也都讲了,我觉得这个问题就大概从两个角度来回答吧。第一个就是Transformer对比循环神经网络,整个self attention的计算就是并行的。另外就是Transformer可以很好地支持这种数据并行。数据并行、模型并行的技术是非常适合Transformer再处理一些不同规模的网络训练的需求的。我觉得我们今天这个Slides里面针对这类问题已经展开了比较详细的回答。

Q3:训练大模型时存储空间不足的问题应该如何解决?

A3:这个内存是说CPU,还是说GPU显存呢。如果训练大模型数据量很大,如果内存受限的话,比如我们可能要把一些硬盘的东西读到内存进行缓存,进行加快它整个计算的效率。如果是这方面不足,那最直接的就是扩展内存就可以了。当然我们早期的时候也做过很多类似的尝试,比如我们可以做一些地址映射,或者一些可能是根据你具体开源工具的datasets本身实现的方式有关系。如果是显存这方面,我觉得我们今天提到的模型并行里的张量并行和pipeline并行就可以去回答这个问题。

以上就是直播问答环节的全部内容,更多关于报告的详细内容以及观看直播回放可于小牛翻译云平台公众号和视频号获取。下期报告《预训练技术:编码模型》将于5月25日14:00与您相见。NiuTrans Talk,是由小牛翻译主办的,每期将邀请到不同领域的机器翻译专家进行讲解,分享行业干货知识,带你走进机器翻译的世界。更多精彩内容尽在小牛翻译直播间 ,想了解更多有关机器翻译的内容请关注机器翻译学堂或小牛翻译官方微博号,与小牛翻译一起探讨机器翻译技术。

image.png

专注于机器翻译技术基础研究50年,拥有百余人的机器翻译产学研团队,自主研发以中文为核心的NiuTrans机器翻译系统,支持388种语言随心互译。通过丰富的应用与功能,为用户提供机器翻译服务全栈式解决方案,致力于为机器翻译产业化应用提供基础平台,帮助企业级用户在国际业务中消除语言障碍。

image.png