视频智能生产及内容分析应用工具开源了！近年来，视频行业持续高速成长，带动数字经济新发展。在视频用户规模持续扩大的同时，

近年来，视频行业持续高速成长，带动数字经济新发展。在视频用户规模持续扩大的同时，产业对于海量多样视频内容的智能化生产及应用的需求也愈发明显。如何对海量视频数据内容进行分析？如何迅速给视频作品打上标签以便于智能推荐？如何筛选最优片段作为视频封面提升内容吸引力？……传统的处理方式需要耗费巨大的人力，智能视频内容分析和生产越来越受到业界的重视。

如何实现视频内容智能化分析及生产，目前还存在一些技术挑战：

1、信息多维理解：视频的标题、字幕、画面、语音等信息中蕴含了丰富的视频信息，如何利用多维信息，提升模型高层次语义理解能力仍有很大难度。

2、计算资源消耗：视频模型的训练需要消耗大量的计算资源。在实际业务中，如何降低成百上千万的untrimed视频，视频分类模型训练所需的机器成本和时间成本是关键。

3、智能筛选生成：如何利用视频帧的质量、精彩程度、内容相关度提取最优帧和最优化面。

接下来，将为大家介绍PaddleVideo开源的知识增强视频多模态&大规模分类打标签方案和视频智能封面生产方案。

视频分类打标签方案（多模态&大规模）

多模态视频分类标签模型MultimodalVideoTag

MultimodalVideoTag基于真实短视频业务数据，融合视频文本、图像、音频三种模态进行视频多模标签分类。模型提供一级标签25个，二级标签200+个，标签准确率超过85%。相比仅使用视频图像特征，可显著提升高层语义标签提取准确率。MultimodalVideoTag原理示意如下图1.1所示。

图1.1多模态视频分类标签框架

模型使用三个分支抽取各个模态特征，再进行多模态特征融合，最后进行多标签分类。

文本分支：使用基于融入实体信息的强大预训练ERNIE，提升文本表征能力，固定住ERNIE 的参数，后置TextCNN 网络学习领域内知识，加速模型训练；
图像分支：使用预训练的 ResNext 对图像抽取高层语义特征，同时使用Bi-LSTM 得到序列信息；
音频分支：使用预训练的VGGish网络抽取音频特征，通过Bi-LSTM 获得时序信息；
多模融合：结合文本与图像的cross attention、文本与音频的cross attention、多模态late fusion处理，提升不同模态的交互能力。使用高语义的文本信息影响图像、音频时间序列的注意力选择，对视频内容杂乱的情况下有较好抵御噪声能力，效果显著优于多模态特征直接拼接的效果。详细结果见表1.2，融入文本特征显著提升模型效果，加入textcnn 后置网络提升领域迁移能力，使用cross attention 进一步提升模型效果。

表1.2多模态融合实验结果

多模态视频分类标签模型MultimodalVideoTag的功能是给视频打多个描述视频内容的标签，可用于内容圈选、招稿以及投放等多个推荐系统场景。效果展示如图1.3。

图1.3多模态视频分类标签 MultimodalVideoTag效果展示

大规模视频分类模型VideoTag

VideoTag基于百度短视频业务千万级数据，支持3000个源于产业实践的实用标签，具有良好的泛化能力，非常适用于国内大规模（千万/亿/十亿级别）短视频分类场景的应用，标签准确率达到89%。

VideoTag采用两阶段建模方式，即图像建模和序列学习。第一阶段，使用少量视频样本（十万级别）训练大规模视频特征提取模型(Extractor)；第二阶段，使用千万级数据训练预测器(Predictor)，最终实现在超大规模（千万/亿/十亿级别）短视频上产业应用，其原理示意如图1.4所示，VideoTag效果展示如图1.5。

图1.4VideoTag原理图

图1.5 VideoTag效果展示

VideoTag视频处理流程如下：

数据处理：视频是按特定顺序排列的一组图像的集合，这些图像也称为帧。视频分类任务需要先对短视频进行解码，然后再将输出的图像帧序列灌入到VideoTag中进行训练和预测。
图像建模：先从训练数据中，对每个类别均匀采样少量样本数据，构成十万量级的训练视频。然后使用TSN网络进行训练，提取所有视频帧的TSN模型分类层前一层的特征数据。在这个过程中，每一帧都被转化成相应的特征向量，一段视频被转化成一个特征序列。
序列学习：采用Attention clusters、LSTM和Nextvlad对特征序列进行建模，学习各个特征之间的组合方式，进一步提高模型准确率。由于序列学习相比于图像建模耗时更短，因此可以融合多个具有互补性的序列模型。示例代码仅使用Attention_LSTM网络进行序列特征预测。
预测结果：融合多个模型结果实现视频分类，进一步提高分类准确率。

视频智能封面生成方案

视频智能封面是通过对视频内容的理解，智能分析视频帧的质量、精彩程度、内容相关度，提取最优帧或最优片段作为视频封面，提升内容吸引力。

飞桨开源了视频智能封面AI算法。视频智能封面应用处理流程如图2.1所示，通过基于PP-TSM的视频质量分析模型，对视频镜头打分。通过人脸美观度、图像实体标签，获取视频内容信息。综合上述视频质量和内容信息进行加权打分后处理，并引入聚类操作滤除重复样本，获取最终视频图像或片段粒度的视频智能封面。