港科大这个AI突破,让大模型学会“偷懒”了

0 阅读6分钟

跳过88%的专家,保住97%的性能,推理速度翻倍——这项研究刚刚被CVPR接收

 

 

你有没有这种感觉:现在的AI越来越聪明,但也越来越“能吃”?

一个能看图能聊天的多模态大模型,跑一次任务要调动几十上百个“专家”一起干活,算力消耗大得吓人。这也是为什么很多炫酷的AI功能只能跑在云端,手机里根本装不下。

但3月5日,港科大团队放出一项被CVPR接收的新研究,可能会改变这个局面。

 

让AI学会“偷懒”:88%专家可以放假

 

这项研究叫MoDES(多模态动态专家跳过框架),名字有点绕,但核心逻辑特别简单——让AI学会“偷懒”

想象一下,你是一家大公司的老板,手下有100个专家。以前处理任何任务,你都要把所有专家叫来开会,不管这件事多简单。是不是特别浪费?

MoDES做的就是:只叫该来的人。

在Qwen3-VL-MoE-30B模型上的测试显示,MoDES能智能跳过高达88%的冗余专家,同时还能保留97.33%的原始性能。换句话说,AI干活只用原来1/10的人力,但活儿干得一点不差。

为什么以前做不到?两个关键洞察

你可能会问:让AI“少干活”这事,以前没人想过吗?

想过。但以前为纯文本模型设计的专家跳过方法,放到多模态模型上就失灵了——跳过比例一高,性能直接崩盘。

港科大团队没有直接扔出新方案,而是先问了一个根本问题:为什么以前的方法在多模态模型上会失效?

论文给出了两个关键发现

洞察一:不同层的专家,重要性天差地别

以前的方法只看当前层的路由概率来判断专家是否重要,但实验发现:浅层专家的作用远比深层专家关键。

如果按统一规则跳过,很容易把浅层的关键专家也删掉——而浅层的误差会在后续层被不断放大,最终导致性能崩溃。这就像盖房子,地基的柱子抽掉了,楼上再漂亮也得塌。

洞察二:文字和图片,在AI眼里是两种生物

团队进一步分析了不同模态token的行为差异,发现:

● 文本token对专家很“挑剔”,专家对文本更新的影响幅度明显更大

● 视觉token存在大量冗余,专家对视觉的影响相对较小

以前的方法不分青红皂白,对文字和图片一刀切——结果就是,要么为了保护文字不敢跳过,要么跳太多把关键专家也删了。

MoDES的解法:给不同人不同待遇

基于这两个洞察,MoDES的核心机制可以拆解为三个设计:

1. 全局调制局部门控(GMLG)

不再只看当前层的局部概率,而是引入一个全局重要性因子——通过离线校准,量化每一层专家对最终输出的整体贡献。

新的专家重要性分数由“局部路由概率”和“全局因子”共同决定。这样,浅层专家会被更保守地保留,深层专家可以更激进地跳过。

2. 双模态阈值(DMT)

为文本token和视觉token分别设定不同的跳过阈值。

对关键的文字部分,小心翼翼;对冗余的视觉部分,大胆跳过。就这么一个简单的“区别对待”,效果立竿见影。

3. 前沿搜索算法

要找到最优的阈值组合,原本需要跑好几天。MoDES设计了一个利用单调性性质的前沿搜索算法,把搜索时间从几天压缩到几小时,缩短约45倍。

硬核数据:不止一家模型验证

MoDES的效果不止在一个模型上验证。

在Kimi-VL-A3B-Instruct上,跳过83%专家时,现有方法性能平均掉超11%,而MoDES仍保留96.25%的原始性能。

在更大的Qwen3-VL-MoE-30B-A3B-Instruct上,跳过88%专家时,对比方法只保住86.66%和85.30%的性能,而MoDES仍然保住97.33%。

在13个图像与视频理解基准上,MoDES均取得最优或接近最优表现。

还有个隐藏福利:和量化可以叠加

MoDES是免训练框架,推理阶段不引入额外计算开销。

更重要的是,它和低比特量化兼容性良好——两者可以从结构和数值两个层面形成互补,共同降低计算成本。这意味着你可以“跳过+压缩”双管齐下,把模型塞进更小的设备。

这件事为什么值得你关注?

你可能不是技术人员,不需要知道MoDES的代码怎么写,但这件事背后的趋势,值得你留意一下:

大模型的竞争,正在从“拼参数”转向“拼效率”。

以前谁家模型参数大、谁烧的钱多,谁就更牛。但现在大家发现,这条路快走不下去了——参数量再翻几倍,电费都交不起。

MoDES代表的是另一条路:不堆参数,堆架构。让模型学会“聪明地偷懒”,用更少的资源干一样的活。

团队在论文最后说了一句话很有意思:MoDES证明了一件事——即便跳过80%以上的专家,只要跳得足够“聪明”,模型性能依然可以稳定保持。

这条路,才是大模型能真正“飞入寻常百姓家”的关键。

最后说两句

港科大的这项研究,不是什么“颠覆式创新”,也没有什么花里胡哨的概念。

它做的就是一件事:先把多模态模型推理时的“浪费”找出来,然后精准地砍掉。

有点像整理房间——不是把东西全扔掉,而是把不常用的收起来,常用的摆在手边。房间还是那个房间,但住起来舒服多了。

如果你想持续跟进这类大模型的前沿进展和落地实践,可以关注LlamaFactory Online——第一时间体验最新模型的微调效果,看看这些“效率突破”在实际中跑起来什么样。

后续我们会继续拆解更多AI前沿,不造概念、不夸大,只讲真实的技术和价值。