ICLR2026 | 视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果

6 阅读1分钟

作者:vivo BlueImage Lab
本文入选 ICLR 2026
ICLR(International Conference on Learning Representations)是聚焦机器学习与深度学习等领域的国际顶级学术会议,致力于推动人工智能理论与方法的前沿研究与创新发展。ICLR 2026 约19000篇投稿,接收率约28.18%。

项目主页:

github.com/vivoCameraR…

摘要:

针对视频散景制作常面临操作复杂、效果不自然等问题,难以满足创作者高效出片需求等问题,我们提出 Any-to-Bokeh 一键式视频虚化工具,对应的论文已被 ICLR2026 接收!该工具无需复杂操作无需专业操作即可生成电影感虚化效果。为短视频创作者、影视从业者提供了高效易用的创作工具,也为相关领域科研提供可参考的实践成果,助力 AI 视频编辑技术更贴近实用需求。项目代码与试用指南已公开至 GitHub,诚邀大家体验试用,欢迎 Star 支持并引用。

该工作由vivo BlueImage Lab,浙江大学共同完成。

视频虚化新突破!Any-to-Bokeh 一键生成电影感连贯效果

在 AI 图像编辑领域,虚化效果(Bokeh)的实现早已不是难题——通过扩散模型,我们能轻松模拟专业相机的虚化质感,让普通图片瞬间提升氛围感。但当需求延伸到视频领域,挑战却陡然升级:现有工具要么无法精准控制对焦平面与虚化强度,要么直接套用图片虚化算法,导致视频出现明显的帧间闪烁、边缘过渡生硬等问题,难以满足高质量创作需求。

近日,我们团队发布了题为《Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model》,为视频虚化难题提供了创新性解决方案,已正式被国际机器学习顶会 ICLR2026 接收。我们研发的这一框架,凭借独特的技术设计,实现了 “任意视频输入→高质量虚化输出” 的一步式转换,同时兼顾可控性与时间连贯性。

一、核心优势:解决视频虚化三大痛点

精准可控,效果自定义:

我们突破传统视频编辑工具的局限,支持显式控制对焦平面与虚化强度。无论是想突出画面主体、弱化背景干扰,还是调整虚化强度适配不同场景(如人像特写、风景延时),都能精准实现,满足多样化创作需求。

时间连贯,无闪烁无断层:

针对 “图片虚化扩展至视频” 的核心痛点,我们在框架中引入多平面图像(MPI)表示 —— 通过逐步拓宽的深度采样函数构建 3D 几何结构,为每帧的虚化合成提供统一的几何引导。再结合 Stable Video Diffusion 等预训练模型的强 3D 先验,从根源上解决了帧间闪烁、边缘模糊过渡不自然的问题,让长视频的虚化效果始终连贯统一。

鲁棒性强,细节不丢失:

我们采用渐进式训练策略,不仅提升了模型对不同场景、不同深度分布视频的适配能力(深度鲁棒性),还能在生成虚化效果的同时,精准保留主体细节。无论是动态人物、快速移动的物体,还是纹理复杂的场景,都能实现 “虚化自然、细节清晰” 的平衡。

二、技术逻辑:一步式生成的背后

Any-to-Bokeh 的核心创新在于提出了一种 “MPI 引导的单步视频扩散模型”:

  • 输入任意视频后,模型先通过 MPI 构建场景的 3D 深度结构,明确不同区域的空间层级;

  • 将 MPI 分层信息作为条件,输入单步视频扩散模型,结合预训练模型的 3D 认知,直接生成符合深度逻辑的虚化效果;

  • 无需多步迭代,一步完成转换,兼顾效率与效果,让普通用户也能快速上手。

三、应用场景:覆盖多领域创作需求

无论是短视频创作者、Vlogger、自媒体人,还是专业视频剪辑师,都能从 Any-to-Bokeh 中受益:

  • **日常 Vlog:**给生活记录视频添加电影感虚化,提升内容质感;

  • **商业创作:**快速制作产品宣传视频、广告片,通过可控虚化突出核心卖点;

  • **影视后期:**简化虚化效果制作流程,减少手动调整帧间一致性的工作量;

  • **社交媒体内容:**让旅行视频、人像短片在社交平台更具视觉吸引力;

  • **学术研究:**为视频编辑、扩散模型应用等相关方向提供技术参考与实践基础。

目前,我们的论文已在arXiv公开,项目代码与试用指南也已同步更新至 GitHub

诚邀大家前往 GitHub 体验试用,若觉得工具实用、技术有参考价值,欢迎给我们点亮Star,也期待相关领域的科研同行引用我们的工作(论文引用格式可在 GitHub 查看)~ 你们的支持是我们持续优化技术的最大动力!

未来,我们也会不断迭代版本,解锁更多实用功能,让 AI 视频创作的 “氛围感自由” 惠及更多人。

持续关注我们的 GitHub 与论文进展,一起探索视频编辑的更多可能。

关于vivo BlueImage Lab

vivo BlueImage Lab(蓝图影像创新实验室)主要负责移动影像算法创新,持续突破移动影像的技术天花板。 该实验室的工作重点包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。团队成员大多是来自国内外顶尖高校的博士,博士后,具有计算机视觉、图像处理、人工智能等相关领域的专业背景,拥有丰富的前沿技术创新经验。 他们致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。除了移动影像,他们也积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。