突破视频编码模式级压缩瓶颈:一种基于长短期相关性建模的帧内模式编码方法

avatar
技术运营 @北京字节跳动科技有限公司

作者:李俊儒、张莉

视频压缩的核心在于去除视频信号中的冗余信息,而其中对于空域冗余的去除通常使用帧内预测的方式来实现。比如,大多数的自然场景的图像内容变化平缓,相邻像素间表现出较强的相似性,因此可以利用周边已编码的信息通过特定的映射和插值实现对当前编码单元的帧内预测。这种帧内预测方式已经在标准领域得到广泛的应用。在H.264/AVC [1] 标准中,帧内预测利用左侧或上侧邻近已重构像素组成参考像素组,根据特定的映射来预测当前编码单元。对于编码单元尺寸为4×4的编码单元,有9种预测模式可供选择,其中包括8种角度模式和DC模式;编码单元尺寸为16×16的编码单元,则仅支持4种预测模式。 H.265/HEVC标准 [2] 中扩展了帧内预测的方向,支持多达33种角度预测模式,以及直流(DC)预测模式和平面(Planar)预测模式。为了更精细地预测视频中可能出现的任意方向的结构或纹理,新一代视频编码标准H.266/VVC、AVS3,分别将帧内预测模式的数量扩充到67和66种。此外,VVC采纳了多行预测(Multi Reference Line,MRL),扩充帧内预测的参考像素区域。MRL支持使用更远处的重构像素预测当前编码单元,进一步利用像素间的相关性去除空域冗余。帧内预测的发展进程如下图所示。

帧内预测演进示意图

图1. 帧内预测演进示意图

如上所述,在视频编码标准发展中,为了适应多样的纹理内容,帧内预测技术基于多假设的理论支持了更多高效的帧内预测模式。最优的预测模式需要通过率失真优化(Rate Dirstion Optimization,RDO)代价决策,其二值化索引则传递到解码端用于视频的解码重建。虽然细粒度的帧内预测设计可以为帧内编码带来性能增益,但帧内模式的传递代价却随之增大。在相同码率下,更丰富的预测模式使得预测模式的表达位占用的带宽也越来越高。因此,帧内预测模式的编码方式至关重要。

若以等长编码为例,每个编码块使用4比特则足以表达对于H.264/AVC中的9种编码模式。当编码模式扩展到67个时,则需要使用7比特来编码帧内预测模式的索引。实际中,帧内模式的编码会通过构建最可能模式列表(Most Probable Mode,MPM)的方式,为出现概率较高的模式分配较短的码字,提高帧内模式编码的效率。在AVC标准中,针对9个预测模式设计了1个MPM的编码方式。HEVC标准采用MPM列表可包含3个最可能的帧内模式,以便更高效地表示35种预测模式。VVC标准则进一步扩展了帧内预测模式的编码方式,MPM列表中包含 6个候选项。最可能模式列表通常基于邻近编码单元(如左上方、左侧、左下方、上方、右上方)的帧内预测模式来构建,并使用一个标志位来区分当前预测模式是否为最可能预测模式。然而,仅利用空域邻近编码单元的预测模式信息来消除模式间的冗余,一定程度上限制了最可能模式预测的准确性。

根据信息论,为概率较大的符号分配较短的码字,对概率较小的符号分配较长的码字,能降低整体信源符号编码的平均码长。为进一步提升帧内模式编码的性能,我们针对新一代视频编码标准VVC和AVS3提出一种基于长期与短期相关性建模的帧内模式编码方法 [3]。所提出的方案可以充分利用长期帧内模式的统计特性并结合短期帧内预测模式,高效构建最可能模式列表,打破传统帧内模式编码时仅考虑空域邻近帧内模式的局限性。帧内预测的长期模式级相关性体现在非邻近的相似纹理结构倾向于选用相同的帧内模式进行编码,如图2所示。

图2. 局部区域内的帧内预测模式。浅蓝色为模式66,粉色为模式34,红色为Planar模式

具体来说,在编码和解码的过程中动态维护长期模式列表以及短期模式列表。长期模式列表的构建是基于已编码帧内模式编码的统计,长期模式列表的具体构建与更新过程如图3所示。首先根据当前帧内预测模式Mi对模式的频率FnMi进行更新,模式Mi更新后的频率为Fn+1Mi。其次根据更新后的频率表中的频率值对频率表重新排序,频率高的排在靠前的位置。最后按照频率高低导出更新后的模式表,模式表中最前面的模式对应的频率是最高的,出现频率最高的帧内模式将优先选入长期模式列表中。

图3. 长期模式列表构建与更新示意图

短期模式列表则基于纹理方向的空域延续性,主要由空域邻近编码单元的帧内模式构成。最终MPM列表的构建将通过预先训练的条件随机场模型来决策长期模式以及短期模式的组合方式,MPM的构建过程如图4所示。

图4. MPM列表构建示意图

所提出的帧内模式编码可为VVC带来1.4%的性能增益且编解码复杂度几乎不变。部分屏幕内容测试序列在全I帧配置下可实现超过6%的BD-Rate节省。所提出的方法也可为AVS3软件平台带来明显的压缩性能提升,已被AVS3标准采纳。

参考文献:

[1] T. Wiegand, G. J. Sullivan, G. Bjontegaard, and A. Luthra, “Overview of the H.264/AVC video coding standard,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 13, pp. 560–576, July 2003.

[2] G. J. Sullivan, J. Ohm, W. Han, and T. Wiegand, “Overview of the high efficiency video coding (HEVC) standard,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, pp. 1649–1668, Dec 2012.

[3] J. Li, M. Wang, L. Zhang, K. Zhang, H. Liu, S. Wang, S. Ma and W. Gao, “Unified intra mode coding based on short and long range correlations,” IEEE Transactions on Image Processing, vol. 29, pp. 7245-7260, June 2020.