MOE

3 阅读33分钟

【待Claude填写标题】

本文由视频《[70]_MoE混合专家模型》自动整理,经 AI 润色生成。


第1部分(00:00)

截图 1转存失败,建议直接上传图片文件 挑战每天讲透一个AI大模型知识点今天是AOA架构深度拆解你有没有发现从Gemini到千问从Mixer到D-Sync MOE几乎所有顶尖大模型都在转向同一个架构MOE也就是混合专家模型

第2部分(00:13)

它已经成为了大模型时代的标配但问题是为什么他们都不约而同的放弃全参数激活的传统模式转而选择MOE呢真的能让大模型更高效更便宜甚至更强大吗更重要的是

第3部分(00:26)

MOE是怎么用吸收激活打破了性能成本规模这个不可能三角的它的路由机制到底是怎么工作的为什么说不是所有专家都参与推理反而成了优势别担心

第4部分(00:38)

截图 4转存失败,建议直接上传图片文件 接下来这20分钟我会带你搞懂MOE模型到底是怎么一回事先讲清楚它和传统大模型的区别别人是全员干活它是按需上班只激活赏数专家省算力又提性能然后聊一聊它为什么这么火

第5部分(00:51)

关键是打破了藏族心里面的不可能三角让模型更大更快更便宜三者能兼得我会用几个例子说一说它是怎么靠专家分工来提升效率的

第6部分(01:02)

还有像Google的Strength Transformer是怎么用它实现高效训练的最后也会提一嘴MOE不是完美无缺训练容易不稳定但控制师们已经有了一些应对的办法不准虚的全员干活

第7部分(01:14)

我们马上开始吧MOE也就是混合专家模型Mix of Experts你可能会觉得MOE是个新概念主要是因为今年像DeepSync V3就是凭借出色的MOE架构设计实实在在的杀疯了把这个技术给带火了

第8部分(01:28)

但其实MOE的思想并不是新生事物早在2017年甚至更早Google的研究员们已经在这个方向上进行了大量的开创性工作比如说大家熟悉的Strength Transformer和后来的SE-MOE可以说MOE的理论提出的比较早

第9部分(01:44)

截图 9转存失败,建议直接上传图片文件 但真正把它从一个精巧的学术概念变成能够支撑起数亿甚至数万亿参数规模并且能够成功训练出来的庞然大物这背后我认为Google和Lisig这样的先行者做出了里程碑式的贡献关于MOE这个话题我们可以拆解成几个核心部分来聊

第10部分(02:00)

第一架构设计某某某型模型到底长什么样它和我们熟悉跟普通模型有什么区别第二训练挑战训练一个这么特殊的模型会遇到哪些坑业界是怎么解决的第三是推理优化在实际的应用中

第11部分(02:13)

如何让MOE模型跑得又快又省这里面又有哪些并行的策略但是考虑一期视频的容量我们今天就把火力集中在第一个问题上深入浅出的带大家弄明白MOE的核心架构那么到底什么是MOE模型呢为了说清楚这一个

第12部分(02:28)

我们得先跟它的反义词也就是我们熟悉的稠密模型Dance Model来做一个对比大家可以回想一下经典的Transformer架构的核心模块简化来看主要就是两个一个是负责捕捉上下文关系的

第13部分(02:41)

注意力机制Attention另一个就是负责加工和停练信息的潜会时间网络FFN我们过去常见的大模型比如早期的GP系列之所以被称为稠密模型就是因为它们的FFN层是一个完整的

第14部分(02:55)

巨大的MLP这意味着对于每一个输入进来的Token这个FFN层所有参数都必须参与计算一个都不能少非常稠密好了

第15部分(03:04)

截图 15转存失败,建议直接上传图片文件 理解了稠密模型MOE就很好懂了MOE的核心思想就是对这个FFN层进行手术把它从一个万事通的通才改造成一个有许多数页有专攻的专家团队组成的顾问团

第16部分(03:16)

我们来看一下右边这张架构图你看原本那一个单独的FFN层现在被替换成了一组什么并行的规模更小的FFN也就是这个也是图里面标注Experts1, Experts2等等这些模块每一个小的FFN

第17部分(03:30)

我们都称之为一个专家Experts那么问题来了输入的数据到底该由哪个专家来处理呢这需要一个调度员了在MOE架构里面这个调度员的角色由一个叫做路由器Router的网络来扮演

第18部分(03:43)

他的任务就是判断每个输入Token的诉求然后决定把它分配给哪些专家最合适因为在实际计算中Router只会挑选一部分专家被激活来处理当前这个Token比如说图里高量的Experts1, Experts3, Experts6而其他的专家则在旁边休息

第19部分(03:58)

完全不参与这次计算正是因为这种按需激活的特性我们才把MOE模型称为稀疏模型Spars Model那么一个很自然的问题就来了这种稀疏的MOE模型真的比稠密的传统模型更好吗好在哪里

第20部分(04:11)

截图 20转存失败,建议直接上传图片文件 别急我们先深入看看它的内部工作流程答案就会慢慢浮现我们来通过这张图来看细节这张图就展示了MOE层是如何为四个不同的输入Token分配专家的我们就跟着第一个Token的事情来走一遍

第21部分(04:23)

当这个Token经过了前面的Attention Level的处理之后它来到了MOE层的入口首先呢它会进入Router这个Router本身也是一个非常小型的神经网络比如一个简单的线性层它的作用就是对这个Token进行分析

第22部分(04:37)

然后输出一个专家选择倾向的概率分布具体来说它会通过一个Token Max参数计算出这个Token被分配给每个专家的概率分别是多少接下来这里有个超级重要的参数TopK这里的K决定了

第23部分(04:49)

我们要从所有专家里挑选出概率最高的K个来处理这个Token在张图的例子里面K等于2所以Router就会查看刚刚算出的概率分布找到最高的那两个值你看0.7对应的就是第一个专家Experts10.2对应的是第三个专家Experts3

第24部分(05:06)

于是这个Token就被同时发送给了Experts1和Experts3这两个专家会分别对它进行计算最后我们会把这两个专家输出结果进行一个加权求和这个权重通常就是Router算出来的那一个概率值这样我们就得到了一个融合了两位专家智慧的最终结果

第25部分(05:23)

截图 25转存失败,建议直接上传图片文件 最后再经过一步残差连接和成规一化这个Token在M1层的处理就完成了你看对于不同的TokenRouter的选择是完全不一样的比如说第二个Token它可能被分配给了第一个专家和第三个专家而第三个TopK呢Robert觉得它更适合找第二个专家和第三个专家

第26部分(05:41)

第四个Locken则被派给了第三和第四个专家所以从间接上再总结一下M1的核心操作就是用一个包含路由器和多个专家的西苏M1的TokenM1层替换掉原来的一个单一的稠密的潜会网络FFN层好了我们搞清楚了M1是什么

第27部分(05:57)

接下来就要讨论一个更深层次的问题为什么我们需要M1这样的架构知其然更要知其所以然要回答这个问题我们必须从大模型发展的第一性原理Scaling Law缩放定律缩起过去几年的实践已经雄辩的证明

第28部分(06:11)

Scaling Law是基本有效的简单来说就是当我们从三个维度模型大小也就是参数量训练数据和计算量去等比例的放大模型模型的性能就会大力激进随之提升这几乎成了整个领域开发新模型的金科玉律

第29部分(06:25)

但是对于传统的稠密模型而言大家在实践这一条定律的时候很快就撞上了一堵墙可以用一个词来形容这个困境叫做不可能三角哪三个角呢分别是卓越的模型性能Performance

第30部分(06:38)

可控的计算成本Cost以及我们根据Scaling Law想要不断增大的模型规模Modern Size对于稠密模型来说这三者你不可能同时拥有为什么逻辑很简单

第31部分(06:48)

截图 31转存失败,建议直接上传图片文件 如果你想遵循Scaling Law追求更强的性能你就必须把模型的参数量做大参数量增加就意味着每次计算不管是训练还是推理所需要激活的参数量也同等增加这直接就导致了算成本的爆炸式增长所以你看

第32部分(07:02)

性能、成本、规模三者互相制约你无法在保证成本可控的前提下无限的增大一个稠密模型的规模来换取性能这就是稠密模型的不可能三角的瓶颈就在这个时候没模型的优越性就体现出来了MOE的本质就是把模型的总参数规模和实际计算量

第33部分(07:19)

这两个概念进行结偶结偶什么意思呢就是说我们可以把模型总参数量做得非常非常大但同时把单次券的计算量控制在一个合理的范围内这是怎么实现的呢就像是我们前面看到

第34部分(07:31)

MOE模型在处理任何一个Token的时候只激活一小部分专家这就引出了MOE模型的两种参数概念Total Parameters总参数量就是所有专家的参数量加起来的总和这个可以做得非常巨大比如说万亿级别

第35部分(07:45)

还有就是ActivateActivate Parameter激活参数量这是单次前向传播中实际参与计算的参数量模型真正的计算成本不管是训练还是推理直接关联的是激活参数量而和总参数量没有必然的线性的关系

第36部分(07:58)

截图 36转存失败,建议直接上传图片文件 我们再回到不可能三角上有了MOE我们就可以极大的增加总参数量让模型更博学总参数量的提升遵循Scaling Long带来更强的模型性能同时

第37部分(08:10)

由于每次只激活一小部分参数我们能把计算成本维持在一个和更小规模的稠密模型相当的水平你看MEMO就巧妙的绕开了这个三角困境让我们有可能同时实现这三个目标这就是我们需要MEMO的第一个也是最核心的解释

第38部分(08:24)

那么除了打破不可能三角从另一个更直观的角度来看MEMO1还引入了一个非常符合直觉的专业化思想通常我们认为语言模型存储的知识很大程度上是固化在FFN层的参数里的当我们把一个庞大的FFN层拆成一个个独立的

第39部分(08:40)

更小的专家的时候实际上就是在模型内部引入了专业分工的概念这样模型有机会让不同的专家去学习和存储不同领域的知识打个比方可能经过训练某个专家成了编程知识库

第40部分(08:52)

对各种代码问题对答如流而另一个专家则可能演变成了文学鉴赏家擅长理解和生成诗词歌赋还有一个专家可能是科学百科专门负责数理化的知识当一个关于编程的问题进来的时候Router就能智能的把它导向到编程专家

第41部分(09:07)

截图 41转存失败,建议直接上传图片文件 从而得到更精准更专业的回答同时因为MOU模型的总参数量可以做得更大这意味着整个专家顾问团能存储的知识总量也远超同本计算成本的投币模型它不仅知识更多而且知识组织方式也可能更高效更有条理

第42部分(09:22)

说到这里大家可能有一个小小的误区我们常说一个MOU模型有64个专家听起来好像整个模型就只有这64位专家但为了澄清这一点我们一起来看一下这张图这张图就展示了一个训练好的MOU模型内部专家们被激活的情况

第43部分(09:38)

请注意这里的重点是Domain Facilization领域专业化的现象横坐标是专家的ID或编号纵坐标是领域专业化的程度图上标注了几个不同的数据领域比如说代码学术论文

第44部分(09:51)

百科书籍等等这里我想请大家特别关注一个细节图上标注了6067615这什么意思呢这意味着MOU架构不是一个扁平的结构而是深度神经网络中的每一层或某些层都拥有自己的一组专家

第45部分(10:06)

比如一个层可能有32层每一层有64个专家总的专家数量其实就是32乘64非常不像多所以一个知识领域的表示并不是由模型中某个特定的专家来独立完成的而是由跨越不同网络深度的多个专家组合路径来共同实现的

第46部分(10:23)

截图 46转存失败,建议直接上传图片文件 我们具体来看一下图里的例子就拿Arche这个领域来说当一个与科学论文相关问题进来时在模型的底层比如Level 0可能编号为10和10号的专家被激活他们负责一些基础的通用的语义理解

第47部分(10:37)

那到了模型的中层比如说Level 7问题就被传递给了编号为35 48还有52的专家他们可能负责专门解析复杂的科学术语和逻辑关系最后到了最高层比如这里的Layer 15又由编号为5和20的专家进行整合润色

第48部分(10:54)

并且生成最终答案所以你看回答一个关于Arche的问题激活的是一个横跨不同层的专家接力队所以不存在什么5号专家就是科学专家这类简单的一一对应的问题所以大家一定要理解Layer乘这个维度它体现了知识在模型内部是按深度分步骤加工处理的

第49部分(11:13)

好了我们回答了MOE是什么和为什么要有它那么最关键的问题就来了它到底好在哪里有数据支撑吗当然是有的我们来看一下艾伦人工智能研究所的一篇论文里面这张图这张图非常直观

第50部分(11:25)

它比较了在训练计算量完全相同的情况下不同模型在各种下游任务上的表现具体是什么任务呢我们不用深究关键是看结果这里就比较了三个模型一个一个1B参数的重密模型

第51部分(11:38)

截图 51转存失败,建议直接上传图片文件 一个7B参数的投幣模型以及一个MOE模型它的总参数量是7B但是激活参数量只有1B大家注意这个设置MOE模型的总参数量和7B的投幣模型一样而它的计算成本也就是激活参数和1B投幣模型在一个量级

第52部分(11:53)

结果一目了然红色的线几乎在所有的评测基准上都明显优于另外两个模型这说明了两个关键点对比7B重密模型在总参数量相同的情况下MOE模型因为它的专业化结构性能更好而对比1B同类模型

第53部分(12:09)

在激活参数量相近的情况下MOE模型因为它更庞大的知识库也就是总参数量性能也要领先所以结果就是无论从哪个角度看MOE架构都展现出了更高的效率和更强的性能当然MOE的优势还不仅限于最终的性能

第54部分(12:24)

我们再来看一下这张图它揭示了MOE另外一个巨大的好处就是训练效率这里比较的是一个MOE模型和一个丑密模型它们俩的激活参数量是完全一样的都是1.3B但是MOE模型的总参数量更大它达到了6.9B

第55部分(12:39)

这张图上上面这一部分是在消耗了相同训练数据或者是相同的气氛量的情况下各个指标的对比而下面这部分则是在跑了相同的训练时间的情况下各项指标的对比

第56部分(12:50)

截图 56转存失败,建议直接上传图片文件 我们就先看大家最关心的训练时间可以看到无论是训练损失还是验证损失红色的MOE模型曲线都持续低于蓝色的丑密模型这就意味着在相同的训练时长里面

第57部分(13:02)

MOE模型学得更快效果更好论文里指出达到同样的性能水平MOE模型的训练速度比同等计算成本的丑密模型快了整整两倍大家千万不要小看这个两倍

第58部分(13:13)

当我们要训练一个千亿甚至万亿参数巨型模型的时候动不动就是几个月的时间和数百万美元的计算资源能把训练时间缩短一半这绝对是革命性的节省意味着研发迭代速度的翻倍

第59部分(13:25)

和成本的大幅降低我们再来看上面关于计算量的图要达到相同的模型效果MOE模型所需的总计算比对应的丑密模型是少了三倍这再次证明从根本上来说MOE是一种计算效率更高的网络架构

第60部分(13:40)

接着我们就来看一下Google那一篇里程碑式的论文Switch Transformer它真正把MOE架构推向了超大规模这张图就展示了MOE模型的Scaling Law这里的1就代表每个MOE城里专家的数量

第61部分(13:52)

从1到256不等横坐标是模型的总参数量这张图清晰地传达一个信息MA架构有超强的可扩展性随着专家数量增多模型的总参数量可以线性增长同时测试损失也在稳步的下降这意味着模型性能在持续的提升

第62部分(14:09)

截图 62转存失败,建议直接上传图片文件 作者还把这些MA模型和当时很强的这个T5 Base投影模型进行了对比在相同的训练步数下所有的MOE模型都远比T5模型表现要更好那Google的作者在这篇论文里面得到了一个非常重要的结论MOE模型比重密模型

第63部分(14:24)

More Sample Efficient也就是样本效率更高这是什么意思呢通俗一点来讲就是给它看同样多的数据它能学到更多的东西就像是一个聪明的学生

第64部分(14:34)

看一遍书就能够掌握知识点而另一个学生可能需要反复看三遍看十遍MOE就是那个聪明的学生因为他学得快所以他更容易通过扩大模型规模来持续的提升性能

第65部分(14:45)

这也就完美的呼应了我们前面讲的为什么要提出MOE架构为了进一步证明这一点Google还从训练效率的角度更直接的对比主要是看两个指标一个是训练步数

第66部分(14:55)

另外一个是实际的训练时长还是在实际花费的时间上MOE架构都比那两个宠密架构要高效的多这背后的原因这是我们刚刚提到的那个量本效率高因为他学得快

第67部分(15:09)

达到相同效果所需的训练时长自然就更短论文里面提到了N分离架构实现了2.5到7倍的训练加速这个提升是相当惊人的所以Google的这篇论文

第68部分(15:20)

截图 68转存失败,建议直接上传图片文件 在这里抛出了一个问题如果我们有固定的训练时长和计算预算我们应该选择训练一个传统的宠密模型还是一个稀疏的MOE模型呢看到这里我相信大家心里已经有了答案

第69部分(15:31)

既然预算和时间是有限的我们当然会选择那个训练起来效率更高效果更好的稀疏MOE模型好了解了MOE基本架构和它的核心优势之后我们再来看看

第70部分(15:41)

后来的研究者们是如何对他们进行改进和优化的这里我们就以DKMOE这个模型为例它引入了两个非常重要的改进思路第一个改进叫做Farngrain的

第71部分(15:51)

Whispers细颗粒度专家简单来说就是把原来那些又大又少的专家拆分成更多更小的专家比如说原来模型里面有N个大专家现在我把它改成

第72部分(16:03)

2N个甚至更多的小专家另一个重要的改进是引入了Share Experts共享专家这个概念这个想法也很直观就是在模型里专门设置一两个

第73部分(16:13)

所有数据都必须经过的专家他们不参与Rollout的选择因此被称为共享专家而剩下的专家呢则需要通过Rollout来选择激活那么这些改进到底有没有带来预期的效果呢我们还是用数据说话

第74部分(16:26)

请看这张图比较了不同专家数量从8个32个到64个每模型模型的性能表现这里有个很关键的实验设定在增加专家数量的同时

第75部分(16:37)

截图 75转存失败,建议直接上传图片文件 研究者们保证了模型的总参数量和计算成本是保持不变的这意味着专家越多每个专家就越小这些图的横坐标是计算量Tokens

第76部分(16:46)

纵坐标是模型的性能我们可以看到在消耗相同计算资源的情况下代表32个专家的浅蓝色线明显的优于8个专家的深蓝色线这说明当专家数量从8增加到32时模型的性能确实有显著的提升

第77部分(17:02)

但有趣的是我们继续把专家数量增加到64个的时候性能的提升就变得微乎其微了红色的线和浅蓝色线几乎是重合的这表明专家数量并不是越多越好它存在一个sweet spot在这个实验里面

第78部分(17:16)

这个32就是那个最佳的平衡点这里可以用一个大家可能熟悉的例子来类比就是用机子分解去压缩和恢复将图片如果你只用8个机子恢复出来的图片可能很模糊当你增加到32个时

第79部分(17:29)

图片的质量就已经很好了当你继续增加到64个多出来的可能只是在恢复一些图像中的噪点信息这说明这张图片的主要信息可能就存在一个大约32维的低维空间里类似的我们也可以用这个思路来理解MOE

第80部分(17:44)

截图 80转存失败,建议直接上传图片文件 在这个实验里面模型需要学习的知识可能恰好被映射到了一个32维的专家空间里再增加专家带来的应急收益可能就非常有限了接着我们再来看共享专家的效果这张图就对比了两种情况红色线是32个普通专家

第81部分(18:00)

没有任何的共享专家而蓝色线呢则是31个需要路由的专家外加一个共享专家从实验结果来看加入一个共享专家似乎没有带来明显的性能改善蓝色的线

第82部分(18:12)

它的验证损失甚至比这个红色线稍微高了一点这个结论其实和最初提出的共享专家的DeepSeqMOE论文的发现是有点矛盾的这项新研究的作者认为共享专家本质上是一种人为强加的鲜艳知识他们主张模型应该自己去学习哪些知识是通用的

第83部分(18:30)

并且让某些专家在学习过程中自然而然的成为处理这些通用知识的事实上的共享专家而不是通过架构设计来强制指定所以这篇论文的作者就得出结论是共享专家这个设计的实际作用可能并不大甚至可能限制了模型的自适应能力

第84部分(18:46)

好 接下来我们来聊一聊描摹另外一个非常关键的技术点路由策略也就是如何把输入token分配给不同的专家通常是有两种主流的分配方式一种叫做token choice另一种叫做expert choice我们先说最常见

第85部分(19:01)

截图 85转存失败,建议直接上传图片文件 也是我们前面默认在讲的这个token choice它的出发点很简单就是为每一个token来选择合适的专家比如这里设定如何采用它策略那么对于输入的第一个tokenRooter可能就会为它选择expert1和expert3

第86部分(19:17)

对于第二个token呢可能会选择expert3和expert4对于第二个token呢但这个方式有一个很经典的问题就是负载不均衡load imbalance这很容易理解很可能大部分token都扎堆选了某几个热门专家导致这些专家计算压力过大

第87部分(19:32)

而另一些冷门专家则无人问津得不到充分的训练这就违背了我们设计N-Bowin架构希望所有专家都能各司其职的初衷为了解决这个问题研究小吴就提出了first choice的思路顾名思义这次我们换一个视角

第88部分(19:47)

不再是token选expert而是expert选token具体怎么做呢我们让每个专家从当前批次的所有的输入里面去选择他最感兴趣或是最擅长处理的top k个token因为我们强制每个专家都选择固定数量的token

第89部分(20:03)

这样一来每个专家的计算负债就变得完全均衡了这个实现方式很巧妙本质上可以看作是把token choice的计算过程反转了一下比如对于expert之一他审视了一下当前批次的所有token通过roost计算之后

第90部分(20:17)

截图 90转存失败,建议直接上传图片文件 他认为we love to study这四个token最归他管而expert之二则可能挑选了we love quiet library这四个大家可以看到因为是站在专家的角度去选所以不同的专家可能会选中相同的token

第91部分(20:31)

比如这里的we love就被重复的选中了这是完全允许的最终的结果是每个专家都接触到了不多不少正好kt token负债完美的均衡当然天下没有免费的午餐expert的策略虽然优雅的解决了负债均衡但也带来两个新的问题

第92部分(20:47)

第一个问题是token dropping的问题在刚才的例子里面句子里面像in这样的token可能没有任何一个专家对它们感兴趣最终没有被选中结果就是这些token会直接被丢弃不参与后续的专家计算这显然会造成信息损失

第93部分(21:03)

因为这些本应被处理的信息凭空消失了可能会对模型的最终性能产生负面影响第二个问题就是在推理也就是模型生成内容的时候会变得特别棘手在训练阶段模型可以一次性看到整个句子或者是整批数据

第94部分(21:17)

所以专家们可以从容的在所有token里面进行挑选但是在推理阶段呢特别是对于gpt这一类自回归模型它需要一个词一个词的往外生成内容这意味着在生成当前词的时候模型根本无法预知未来会出现哪些词

第95部分(21:32)

截图 95转存失败,建议直接上传图片文件 那你让专家怎么在一个还不存在的未来token词里面去挑选它的top k呢这就好比让厨师从还没有采购的食材里面去选菜来做根本无从下手吗为了解决这个推理难题一个常见的解决办法就是

第96部分(21:46)

训练一个额外的小新生机网络比如一个MLP用它用它来预测当前这个token在如果未来有一整批数据的情况下它被某个专家选中的概率有多大如果预测的概率高就把它给分配过去

第97部分(21:59)

但大家也能感觉到这终究是一种近似和预测不仅增加了额外的计算开支和系统的复杂度效果也未必理想行吧理论分析了一大堆我们还是得来看一下实验数据看看expert choice和token choice这两种方法

第98部分(22:14)

到底哪个效果更好看这个图横坐标是计算量也就是tokens纵坐标是模型性能performance粉色的线是token choice蓝色线是expert choice我们可以清楚的看到

第99部分(22:27)

无论是在训练级的损失曲线上还是在验证级的损失曲线上token choice的表现都明显优于expert choice它的损失值持续更低这个实验结果很有说服力也解释了为什么在今天主流的MH模型中token choice依然是绝对的首选方向

第100部分(22:44)

截图 100转存失败,建议直接上传图片文件 当然对于它那个负载不去横的老毛病学术界和工业界也不会支持不理大家会采用各种辅助策略比如引入一种叫做负载均衡损失的机制这就像是在训练过程中

第101部分(22:56)

给那些导致扎堆的行为一点小显的惩罚从而引导root的分配行为趋向于均衡那么说到这里大家可能会好奇一个点我们模型清起来这么厉害亦能用更少的计算量支撑其更大的模型规模为什么不是早就一统江湖而直到最近几年才活起来呢

第102部分(23:12)

答案就在于这类稀疏模型的训练过程非常的娇气存在着严重的训练不稳定性问题这篇论文里面的图就展示了这种不稳定性左图是一个不稳定的训练案例你可以看到模型的训练损失一开始在稳步下降一切看起来很美好

第103部分(23:28)

到了某一个节点损失值突然就崩了瞬间飙升之前所有的训练成果都可能白费所以如何设计一套稳定可靠的训练策略让一个庞大的MOE模型能够从头到尾平稳的完成训练本身就是一个极具挑战性的系统工程性问题

第104部分(23:43)

这里面涉及到大量的技术细节和练单技巧比如特殊的参数初始化方法机器的学习率调整策略QU裁减等等如果大家对这一部分感兴趣可以把它作为一个方向去深入研究一下那么视频内容就到这里今天我们一起搞懂了MOE到底是什么

第105部分(23:59)

它是一个按需上班的稀疏模型它为什么火是因为它打破了大模型性能成本规模的不可能三角以及它怎么工作是靠拉图调度专家实现专业的分工还有它的优势与代价训练快审算力

第106部分(24:14)

但也容易不稳定简单来说MEMO-V不只是一次技术升级更是一种思维方式的转变让AI学会术业有专攻相信这些知识无论是在准备技术面试还是在未来的实际工作中结束到相关项目时

第107部分(24:26)

都能够有所启发和帮助我们下期再见