何恺明团队再破AI生成瓶颈！一步生成图像技术，凭什么颠覆行业？何恺明团队最新成果MeanFlow颠覆图像生成！一步完成高

前言

在AI图像生成领域，2025年迎来了诸多令人瞩目的大模型。

如字节跳动的Seedream 3.0，综合性能追平GPT-4o，原生高分辨率且支持中英双语；腾讯的混元图像2.0，实现毫秒级响应，超写实画质备受关注。这些模型不断刷新人们对图像生成能力的认知。

而近期，何恺明团队的最新研究成果更是引发广泛关注。

何恺明团队提出的MeanFlow模型，凭借颠覆性的 “一步生成”技术，在ImageNet上取得惊人成绩，无需预训练、蒸馏等复杂过程，便可以直接实现从噪声到高质量图像的转变。

这一研究突破了传统生成模型的多步采样局限，大幅提升效率，在算力消耗上也极具优势。

它不仅展现了华人学者们在AI领域的强大创新能力，更为图像生成技术乃至整个AI行业的发展开辟了新路径， 引领我们探索AI更广阔的可能性，值得深入探究。

颠覆传统！MeanFlow 如何实现“一步生成”

在计算机视觉和深度学习领域，何恺明无疑是一位声名远扬的学术大牛。

他提出的残差网络（ResNet），凭借解决深度神经网络中梯度消失问题的卓越贡献， 不仅荣获CVPR最佳论文，更成为现代深度学习架构的基石，深刻影响了整个AI领域的发展走向。

来源：全球科技情报服务平台AMiner：https://www.aminer.cn/open/scholar?fr=nav&rf=

此次，何恺明带领由MIT和CMU组成的团队，带来了又一震撼发现——MeanFlow模型。 这一成果再次彰显了团队在前沿研究上的强大实力与创新精神。

来源：全球科技情报服务平台AMiner：https://www.aminer.cn/open/scholar?fr=nav&rf=

在生成模型的世界里， “速度”与“质量”的平衡一直是困扰研究者的难题。

传统模型如同谨慎的工匠，通过“瞬时速度场”逐刻规划数据的流动轨迹，试图让噪声完美蜕变为真实图像。

但这种方式就像用显微镜观察时间，过于关注每个瞬间的变化，导致多步采样成为必经之路，效率大打折扣。

何恺明团队的灵感，源于一场大胆的跨界融合——将物理中的“平均速度”概念引入AI。

平均速度u的表示

传统生成模型基于瞬时速度场，就像在绘制一条曲线上每个点的切线方向，需要不断调整、多次迭代才能逼近目标图像。

而MeanFlow引入的平均速度场，直接定义“位移/时间间隔”，不再执着于每个瞬间的精确速度，更关注起点到终点的“直达路径” 。

这就好比从逐帧观看电影，变成直接拖动进度条快进，跳过繁琐的中间过程，直达理想画面。

流匹配中的速度场

左图：条件流；右图：边际流

为了让平均速度与瞬时速度“对话”，团队推导出了堪称核心的MeanFlow 恒等式。

MeanFlow恒等式

这个公式揭示，平均速度可通过瞬时速度及其时间导数直接计算，无需复杂的积分运算。

从数学角度来看，瞬时速度描述的是某一时刻的变化率，而平均速度是在一段时间内的总体变化趋势，MeanFlow恒等式巧妙地建立起两者的联系，将复杂的动态变化过程简化为可计算的数学关系。

依托这一恒等式，团队设计出极简训练框架。

在训练过程中，让神经网络直接拟合平均速度场，通过自动微分计算导数项，使得模型能够精准捕捉数据变化的总体趋势。

通过jvp计算只需要一次后向传递，类似于神经网络中的标准反向传播，开销不到总训练时间的20%。

上图提供了伪代码。团队要强调的是，

根据下面的公式，几步采样也是很简单的。

这一过程彻底告别了传统方法中复杂的预训练和多步采样过程，大大提高了训练效率。

在ImageNet 256×256的考场上，MeanFlow交出了一份惊艳的答卷：仅用一次函数评估（1-NFE）即可达到3.43 FID，显著优于之前最先进的一步扩散/流模型。 研究大幅缩小了一步扩散/流模型与其多步前驱之间的差距。

ImageNet 256×256上的一步生成

实验效果：多维度验证技术突破

MeanFlow以ImageNet 256×256为核心实验场景，通过精心设计的训练策略与架构创新，实现了生成效率与质量的双重突破。

团队采用预训练VAE提取32×32×4的潜在空间，基于ViT-B/4架构构建模型，通过位置嵌入编码时间变量(r,t)，并以对数正态分布采样时间步，迫使模型学习跨时间的平均速度场。

训练中运用自适应加权 L2 损失（p=1时性能最优），结合JVP操作高效计算导数，并通过无分类器引导（CFG）技术提升生成质量。

ImageNet 256×256数据集上1-NFE生成的消融实验结果。

实验数据显示，模型在1-NFE下实现3.43 FID，较此前SOTA方法IMM（7.77）提升超50%。

在2-NFE生成中，FID降至2.20，性能媲美领先的多步扩散/流模型基准，即需250×2 NFE的DiT、SiT等多步模型。

ImageNet-256×256上的类条件生成。

值得注意的是，该研究的方法是自包含的，完全从头训练。它在不使用任何预训练、蒸馏等情况下实现了强大结果。

MeanFlow的突破为AI行业带来多维度变革。

在技术普惠层面，其无需预训练、少步数的特性打破算力壁垒， 中小团队可基于本地数据开发定制化模型，普通硬件即可支持模型训练与推理。

在科研范式上，团队将物理 “平均速度” 概念引入AI，建立MeanFlow恒等式，为一步生成提供可验证的数学框架。

这种 “从基础科学中寻找灵感” 的思路，开辟了跨学科研究新路径，推动AI研究从 “经验驱动” 向 “理论驱动” 跃迁。

在内容生产领域，MeanFlow推动图像生成进入 “秒级时代”。

广告设计、影视特效等行业可告别多步渲染等待，通过1-NFE技术实现 “文本输入-图像生成” 的即时响应。

结合CFG技术，用户还能动态调整生成风格，让AIGC从 “辅助工具” 升级为 “创意伙伴”。

从实验生成的ImageNet图像看，模型输出的鸟类羽毛纹理、汽车光影效果等细节逼近真实数据，印证了其工业级应用的高保真潜力。

1-NFE的生成结果

结语：从图像生成到科学模拟的无限延伸

MeanFlow的技术逻辑具备广泛迁移性，未来有望拓展至视频生成、3D模型构建等领域。

其 “粗粒度建模” 思路可迁移至气候模拟、分子动力学等科学场景，用更少算力解决复杂系统仿真问题。

此外，1-NFE特性可显著降低AI算力消耗，助力行业实现绿色计算目标。

从残差网络到MeanFlow，何恺明团队始终站在AI基础理论创新的潮头。

这次，何恺明及其他华人学者（耿正阳、邓明扬、白行健等）组成的 “学霸天团”，用物理直觉与数学严谨性证明，华人科研力量已从 “应用追赶” 转向 “理论引领”。

当MeanFlow的 “一步生成” 成为现实，我们看到的不仅是技术参数的刷新，更是一个信号——AI 的下一个突破，或许就藏在对 “第一性原理” 的重新审视中。

正如论文结语所言：“我们希望这项研究能激励学界重新审视生成模型的基础理论。” 而这，正是科学进步的永恒动力。

这里是AMiner数据平台——全球领先的学术数据挖掘与分析平台，您身边的科研助手，有关学术趋势洞察、学者网络分析问题都可以与我们探讨！

网站链接：www.aminer.cn/open/schola…

或直接关注【AMiner Research】公众号，获取最新的AI前沿研究、行业动态和学者信息！