UNITE:能识别无脸视频的深度伪造检测系统

4 阅读4分钟

在操纵视频可以传播虚假信息、欺凌他人并引发伤害的时代,加州大学河滨分校的研究人员创建了一个强大的新系统来揭露这些伪造内容。

来自该校马兰和罗斯玛丽·伯恩斯工程学院的电气与计算机工程教授Amit Roy-Chowdhury与博士生Rohit Kundu,联合某机构的科学家,共同开发了一种人工智能模型,用于检测视频篡改——即使操纵手段远超面部替换和语音篡改。(Roy-Chowdhury同时也是该校新成立的跨学科研究中心——加州大学河滨分校人工智能研究与教育研究所的联合主任。)

他们的新系统名为“识别篡改与合成视频的通用网络”(UNITE),通过不仅检查面部,还检查完整的视频帧(包括背景和运动模式)来检测伪造内容。这一分析使其成为首批能够识别不依赖于面部内容的合成或篡改视频的工具之一。

Kundu说:“深度伪造已经发展演变。它们不再仅仅是面部替换。人们现在正在使用强大的生成模型创建完全伪造的视频——从面部到背景。我们的系统就是为了捕捉所有这些而构建的。”

UNITE的开发正值文本到视频和图像到视频生成技术在网上广泛可用之际。这些AI平台使几乎任何人都能制造出极具说服力的虚假视频,对个人、机构乃至民主本身构成严重风险。

Kundu解释说,早期的深度伪造检测器几乎完全专注于面部线索。

他说:“如果画面中没有面部,许多检测器根本无法工作。但虚假信息可以有多种形式。改变场景的背景同样可以扭曲事实。”

为解决这个问题,UNITE使用基于Transformer的深度学习模型来分析视频片段。它能检测细微的空间和时间不一致性——这些线索通常被以前的系统忽略。该模型基于一个名为SigLIP的基础AI框架,该框架提取的特征不绑定于特定人物或物体。一种名为“注意力多样性损失”的新型训练方法促使系统监控每帧中的多个视觉区域,防止其仅关注面部。

其结果是诞生了一个通用检测器,能够标记从简单的面部替换到完全由生成模型创建、不依赖任何真实素材的复杂合成视频等一系列伪造内容。

Kundu表示:“这是一个能处理所有这些场景的单一模型。这就是它被称为‘通用’的原因。”

研究人员在2025年于田纳西州纳什维尔举办的高水平会议——计算机视觉与模式识别会议上展示了他们的研究成果。这篇由Kundu主导的论文题为《迈向通用合成视频检测器:从面部或背景操纵到完全AI生成内容》,概述了UNITE的架构和训练方法。该论文由IEEE计算机协会和计算机视觉基金会共同赞助,CVPR是世界上影响力最高的科学出版物平台之一。

与某机构的合作(Kundu曾在该机构实习)为模型训练提供了访问广泛数据集和计算资源的途径,使其能够在各种合成内容上进行训练,包括由文本或静态图像生成的视频——这些格式常常难倒现有的检测器。

虽然UNITE仍在开发中,但它可能很快在抵御视频虚假信息方面发挥重要作用。潜在用户包括社交媒体平台、事实核查机构以及致力于防止操纵视频病毒式传播的新闻编辑室。

Kundu说:“人们应该知道他们看到的是否真实。随着AI在伪造现实方面越来越擅长,我们也必须更擅长揭示真相。”FINISHED