何恺明团队再破AI生成瓶颈!一步生成图像技术,凭什么颠覆行业?

283 阅读8分钟

前言

在AI图像生成领域,2025年迎来了诸多令人瞩目的大模型。

如字节跳动的Seedream 3.0,综合性能追平GPT-4o,原生高分辨率且支持中英双语;腾讯的混元图像2.0,实现毫秒级响应,超写实画质备受关注。这些模型不断刷新人们对图像生成能力的认知。

而近期,何恺明团队的最新研究成果更是引发广泛关注。

何恺明团队提出的MeanFlow模型,凭借颠覆性的 “一步生成”技术,在ImageNet上取得惊人成绩,无需预训练、蒸馏等复杂过程,便可以直接实现从噪声到高质量图像的转变。

这一研究突破了传统生成模型的多步采样局限,大幅提升效率,在算力消耗上也极具优势。

它不仅展现了华人学者们在AI领域的强大创新能力,更为图像生成技术乃至整个AI行业的发展开辟了新路径, 引领我们探索AI更广阔的可能性,值得深入探究。

颠覆传统!MeanFlow 如何实现“一步生成”

在计算机视觉和深度学习领域,何恺明无疑是一位声名远扬的学术大牛。

他提出的残差网络(ResNet),凭借解决深度神经网络中梯度消失问题的卓越贡献, 不仅荣获CVPR最佳论文,更成为现代深度学习架构的基石,深刻影响了整个AI领域的发展走向。图片

来源:全球科技情报服务平台AMiner:https://www.aminer.cn/open/scholar?fr=nav&rf=

此次,何恺明带领由MIT和CMU组成的团队,带来了又一震撼发现——MeanFlow模型。 这一成果再次彰显了团队在前沿研究上的强大实力与创新精神。图片

来源:全球科技情报服务平台AMiner:https://www.aminer.cn/open/scholar?fr=nav&rf=

在生成模型的世界里, “速度”与“质量”的平衡一直是困扰研究者的难题。

传统模型如同谨慎的工匠,通过“瞬时速度场”逐刻规划数据的流动轨迹,试图让噪声完美蜕变为真实图像。

但这种方式就像用显微镜观察时间,过于关注每个瞬间的变化,导致多步采样成为必经之路,效率大打折扣。

何恺明团队的灵感,源于一场大胆的跨界融合——将物理中的“平均速度”概念引入AI。 图片

平均速度u的表示

传统生成模型基于瞬时速度场,就像在绘制一条曲线上每个点的切线方向,需要不断调整、多次迭代才能逼近目标图像。

而MeanFlow引入的平均速度场,直接定义“位移/时间间隔”,不再执着于每个瞬间的精确速度,更关注起点到终点的“直达路径”

这就好比从逐帧观看电影,变成直接拖动进度条快进,跳过繁琐的中间过程,直达理想画面。

图片

流匹配中的速度场

左图:条件流;右图:边际流

为了让平均速度与瞬时速度“对话”,团队推导出了堪称核心的MeanFlow 恒等式。 图片

MeanFlow恒等式

这个公式揭示,平均速度可通过瞬时速度及其时间导数直接计算,无需复杂的积分运算。

从数学角度来看,瞬时速度描述的是某一时刻的变化率,而平均速度是在一段时间内的总体变化趋势,MeanFlow恒等式巧妙地建立起两者的联系,将复杂的动态变化过程简化为可计算的数学关系。

依托这一恒等式,团队设计出极简训练框架。

在训练过程中,让神经网络直接拟合平均速度场,通过自动微分计算导数项,使得模型能够精准捕捉数据变化的总体趋势。

图片

通过jvp计算只需要一次后向传递,类似于神经网络中的标准反向传播,开销不到总训练时间的20%。

图片

上图提供了伪代码。团队要强调的是,

根据下面的公式,几步采样也是很简单的。

这一过程彻底告别了传统方法中复杂的预训练和多步采样过程,大大提高了训练效率。

在ImageNet 256×256的考场上,MeanFlow交出了一份惊艳的答卷:仅用一次函数评估(1-NFE)即可达到3.43 FID,显著优于之前最先进的一步扩散/流模型。 研究大幅缩小了一步扩散/流模型与其多步前驱之间的差距。图片

ImageNet 256×256上的一步生成

实验效果:多维度验证技术突破

MeanFlow以ImageNet 256×256为核心实验场景,通过精心设计的训练策略与架构创新,实现了生成效率与质量的双重突破。

团队采用预训练VAE提取32×32×4的潜在空间,基于ViT-B/4架构构建模型,通过位置嵌入编码时间变量(r,t),并以对数正态分布采样时间步,迫使模型学习跨时间的平均速度场。

训练中运用自适应加权 L2 损失(p=1时性能最优),结合JVP操作高效计算导数,并通过无分类器引导(CFG)技术提升生成质量。 图片

ImageNet 256×256数据集上1-NFE生成的消融实验结果。

实验数据显示,模型在1-NFE下实现3.43 FID,较此前SOTA方法IMM(7.77)提升超50%。

在2-NFE生成中,FID降至2.20,性能媲美领先的多步扩散/流模型基准,即需250×2 NFE的DiT、SiT等多步模型。图片

ImageNet-256×256上的类条件生成。

值得注意的是,该研究的方法是自包含的,完全从头训练。它在不使用任何预训练、蒸馏等情况下实现了强大结果。

MeanFlow的突破为AI行业带来多维度变革。

在技术普惠层面,其无需预训练、少步数的特性打破算力壁垒, 中小团队可基于本地数据开发定制化模型,普通硬件即可支持模型训练与推理。

在科研范式上,团队将物理 “平均速度” 概念引入AI,建立MeanFlow恒等式,为一步生成提供可验证的数学框架。

这种 “从基础科学中寻找灵感” 的思路,开辟了跨学科研究新路径,推动AI研究从 “经验驱动” 向 “理论驱动” 跃迁。

在内容生产领域,MeanFlow推动图像生成进入 “秒级时代”。

广告设计、影视特效等行业可告别多步渲染等待,通过1-NFE技术实现 “文本输入-图像生成” 的即时响应。

结合CFG技术,用户还能动态调整生成风格,让AIGC从 “辅助工具” 升级为 “创意伙伴”。

从实验生成的ImageNet图像看,模型输出的鸟类羽毛纹理、汽车光影效果等细节逼近真实数据,印证了其工业级应用的高保真潜力。

图片

1-NFE的生成结果

结语:从图像生成到科学模拟的无限延伸

MeanFlow的技术逻辑具备广泛迁移性,未来有望拓展至视频生成、3D模型构建等领域。

其 “粗粒度建模” 思路可迁移至气候模拟、分子动力学等科学场景,用更少算力解决复杂系统仿真问题。

此外,1-NFE特性可显著降低AI算力消耗,助力行业实现绿色计算目标。

从残差网络到MeanFlow,何恺明团队始终站在AI基础理论创新的潮头。

这次,何恺明及其他华人学者(耿正阳、邓明扬、白行健等)组成的 “学霸天团”,用物理直觉与数学严谨性证明,华人科研力量已从 “应用追赶” 转向 “理论引领”。

当MeanFlow的 “一步生成” 成为现实,我们看到的不仅是技术参数的刷新,更是一个信号——AI 的下一个突破,或许就藏在对 “第一性原理” 的重新审视中。

正如论文结语所言:“我们希望这项研究能激励学界重新审视生成模型的基础理论。” 而这,正是科学进步的永恒动力。


这里是AMiner数据平台——全球领先的学术数据挖掘与分析平台,您身边的科研助手,有关学术趋势洞察、学者网络分析问题都可以与我们探讨!

网站链接:www.aminer.cn/open/schola…

或直接关注【AMiner Research】公众号,获取最新的AI前沿研究、行业动态和学者信息!