【AAAI2026】阿里云人工智能平台PAI视频编辑算法论文入选

0 阅读1分钟

近期,阿里云人工智能平台 PAI 的视频编辑算法论文在 AAAI2026 上正式亮相发表(Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration)。AAAI 是人工智能领域最具影响力的国际顶级会议之一,旨在为研究人员、工程师与产业界专家提供交流平台,展示在机器学习、计算机视觉与生成式 AI 等方向的最新研究成果与应用进展。此次入选标志着阿里云人工智能平台 PAI 在视频编辑算法方面的研究获得了学术界的充分认可。

视频编辑的目标是根据用户需求对目标视频进行修改,其中“外观编辑”是一类关键任务:在尽可能保留视频结构与运动模式的前提下,改变目标主体的颜色、纹理或整体风格。过往主流方法多采用文本提示(prompt)引导编辑,但文本表达往往存在歧义,且难以精确描述细粒度外观(例如复杂配色、局部纹理布局等),从而限制了用户对编辑结果的精细控制。因此,更符合真实创作流程的方案是“参考图驱动的视频编辑”:用户先对某一帧进行精修,得到理想外观的参考图(可通过 Photoshop、ComfyUI 或任意图像编辑工具完成),再将该外观一致地传播到后续帧中(如图1所示)。这类任务天然地将问题拆解为两步:先获得高质量参考帧,再实现跨帧外观一致传播。

图1. 我们提出的视频编辑算法与主流方法的对比

尽管参考图驱动的视频外观传播已有不少探索,但现有方法仍面临明显局限。一类方法依赖光流估计来对齐并传播外观特征,其效果容易受到光流精度影响,在大幅运动、遮挡或复杂镜头变化下会明显退化;另一类方法基于图生视频(I2V)模型进行反演与去噪传播,但往往受显存限制约束视频长度,且轻量时序建模对大运动范围适应不足。此外,近年来一些零样本(zero-shot)外观迁移方法通过干预扩散模型的注意力机制实现跨帧传播,虽然能提升鲁棒性,但往往会引入复合画质退化,例如模糊、颜色缺失或过饱和等问题,并且这种退化会随着多帧传播而累积。

针对上述问题,PAI 团队提出了全新的两阶段方法 Zero-to-Hero,用于提升视频外观迁移的准确性、时序一致性与最终画质。Zero-to-Hero 将“外观传播”解耦为两个阶段:首先生成一个可靠的零样本传播初始化(Zero-Stage),再通过整体性视频修复模型提升画质(Hero-Stage)。图2展示了我们算法的整体框架。在 Zero-Stage 中,我们利用原始视频帧之间的对应关系来引导扩散模型的注意力传播,相比以往依赖光流或额外时序模块的方案,在处理大运动目标时更稳健,从而提供准确且时序一致的初始化结果。然而,对注意力机制的干预会带来难以避免的模糊与颜色缺失等退化。为突破这一零样本上限,我们进一步提出 Hero-Stage:训练一个面向退化模式的条件生成模型,对视频进行画质修复。

图 2:视频编辑过程示意图

如图3所示,Zero-to-Hero 在 Colorization 与 Blender-Color-Edit 两项可逐帧评测的任务上均取得最优结果(PSNR 分别达 28.21/26.76 dB,且 LPIPS 最低、SSIM 最高),同时在 General-Edit 上也在锚点帧指标与时序一致性(MS/SC)上整体领先,体现了更稳定的外观传播与更高的画质保真。

图 3:实验效果概览

如图4所示,在 General-Edit 数据集的定性对比中,Zero-to-Hero 能更准确地贴合参考帧外观,同时最大程度保持原视频的结构与运动一致性;相比基线方法,结果中外观漂移与细节模糊现象更少,整体观感更稳定。

图 4:Zero-to-Hero与其他方法编辑结果示例

论文信息

论文名字:Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration

论文作者:苏彤彤、汪诚愚、廖海鹏、黄俊、鲁东明

论文 pdf 链接:arxiv.org/abs/2505.23…