港科大这个AI突破，让大模型学会“偷懒”了多模态大模型推理效率低？港科大最新研究MoDES，让AI学会“偷懒”——跳过8

跳过88%的专家，保住97%的性能，推理速度翻倍——这项研究刚刚被CVPR接收

你有没有这种感觉：现在的AI越来越聪明，但也越来越“能吃”？

一个能看图能聊天的多模态大模型，跑一次任务要调动几十上百个“专家”一起干活，算力消耗大得吓人。这也是为什么很多炫酷的AI功能只能跑在云端，手机里根本装不下。

但3月5日，港科大团队放出一项被CVPR接收的新研究，可能会改变这个局面。

让AI学会“偷懒”：88%专家可以放假

这项研究叫MoDES（多模态动态专家跳过框架），名字有点绕，但核心逻辑特别简单——让AI学会“偷懒”

想象一下，你是一家大公司的老板，手下有100个专家。以前处理任何任务，你都要把所有专家叫来开会，不管这件事多简单。是不是特别浪费？

MoDES做的就是：只叫该来的人。

在Qwen3-VL-MoE-30B模型上的测试显示，MoDES能智能跳过高达88%的冗余专家，同时还能保留97.33%的原始性能。换句话说，AI干活只用原来1/10的人力，但活儿干得一点不差。

为什么以前做不到？两个关键洞察

你可能会问：让AI“少干活”这事，以前没人想过吗？

想过。但以前为纯文本模型设计的专家跳过方法，放到多模态模型上就失灵了——跳过比例一高，性能直接崩盘。

港科大团队没有直接扔出新方案，而是先问了一个根本问题：为什么以前的方法在多模态模型上会失效？

论文给出了两个关键发现

洞察一：不同层的专家，重要性天差地别

以前的方法只看当前层的路由概率来判断专家是否重要，但实验发现：浅层专家的作用远比深层专家关键。

如果按统一规则跳过，很容易把浅层的关键专家也删掉——而浅层的误差会在后续层被不断放大，最终导致性能崩溃。这就像盖房子，地基的柱子抽掉了，楼上再漂亮也得塌。

洞察二：文字和图片，在AI眼里是两种生物

团队进一步分析了不同模态token的行为差异，发现：

● 文本token对专家很“挑剔”，专家对文本更新的影响幅度明显更大

● 视觉token存在大量冗余，专家对视觉的影响相对较小

以前的方法不分青红皂白，对文字和图片一刀切——结果就是，要么为了保护文字不敢跳过，要么跳太多把关键专家也删了。

MoDES的解法：给不同人不同待遇

基于这两个洞察，MoDES的核心机制可以拆解为三个设计：

1. 全局调制局部门控（GMLG）

不再只看当前层的局部概率，而是引入一个全局重要性因子——通过离线校准，量化每一层专家对最终输出的整体贡献。

新的专家重要性分数由“局部路由概率”和“全局因子”共同决定。这样，浅层专家会被更保守地保留，深层专家可以更激进地跳过。

2. 双模态阈值（DMT）

为文本token和视觉token分别设定不同的跳过阈值。

对关键的文字部分，小心翼翼；对冗余的视觉部分，大胆跳过。就这么一个简单的“区别对待”，效果立竿见影。

3. 前沿搜索算法

要找到最优的阈值组合，原本需要跑好几天。MoDES设计了一个利用单调性性质的前沿搜索算法，把搜索时间从几天压缩到几小时，缩短约45倍。

硬核数据：不止一家模型验证

MoDES的效果不止在一个模型上验证。

在Kimi-VL-A3B-Instruct上，跳过83%专家时，现有方法性能平均掉超11%，而MoDES仍保留96.25%的原始性能。

在更大的Qwen3-VL-MoE-30B-A3B-Instruct上，跳过88%专家时，对比方法只保住86.66%和85.30%的性能，而MoDES仍然保住97.33%。

在13个图像与视频理解基准上，MoDES均取得最优或接近最优表现。

还有个隐藏福利：和量化可以叠加

MoDES是免训练框架，推理阶段不引入额外计算开销。

更重要的是，它和低比特量化兼容性良好——两者可以从结构和数值两个层面形成互补，共同降低计算成本。这意味着你可以“跳过+压缩”双管齐下，把模型塞进更小的设备。

这件事为什么值得你关注？

你可能不是技术人员，不需要知道MoDES的代码怎么写，但这件事背后的趋势，值得你留意一下：

大模型的竞争，正在从“拼参数”转向“拼效率”。

以前谁家模型参数大、谁烧的钱多，谁就更牛。但现在大家发现，这条路快走不下去了——参数量再翻几倍，电费都交不起。

MoDES代表的是另一条路：不堆参数，堆架构。让模型学会“聪明地偷懒”，用更少的资源干一样的活。

团队在论文最后说了一句话很有意思：MoDES证明了一件事——即便跳过80%以上的专家，只要跳得足够“聪明”，模型性能依然可以稳定保持。

这条路，才是大模型能真正“飞入寻常百姓家”的关键。

最后说两句

港科大的这项研究，不是什么“颠覆式创新”，也没有什么花里胡哨的概念。

它做的就是一件事：先把多模态模型推理时的“浪费”找出来，然后精准地砍掉。

有点像整理房间——不是把东西全扔掉，而是把不常用的收起来，常用的摆在手边。房间还是那个房间，但住起来舒服多了。

如果你想持续跟进这类大模型的前沿进展和落地实践，可以关注LlamaFactory Online——第一时间体验最新模型的微调效果，看看这些“效率突破”在实际中跑起来什么样。

后续我们会继续拆解更多AI前沿，不造概念、不夸大，只讲真实的技术和价值。