视频压缩的本质:从像素统计到视觉感知的冗余分层解析

169 阅读4分钟

一句话总结:

视频压缩的本质,是在信号、感知和编码三个层面,层层递进地识别并剔除冗余信息,而AI等新兴技术则为这个“剔除”过程带来了前所未有的智能化。


第一层:信号层冗余 —— 视频数据的内在统计特性

这是视频数据与生俱来的、最基础的冗余,源于物理世界的连续性。

1. 空间冗余 (Spatial Redundancy)

  • 表现:在一帧图像内部,一个像素的值往往与它周围的像素高度相似(例如,天空、墙壁的大片纯色区域)。
  • 剔除工具帧内预测 (Intra-prediction)。编码器不存储每个像素的绝对值,而是利用已编码的相邻像素来“预测”当前像素,仅记录微小的预测残差

2. 时间冗余 (Temporal Redundancy)

  • 表现:在视频序列中,后一帧的画面内容通常与前一帧高度相似,大部分背景保持不变,只有少数物体在移动。
  • 剔除工具帧间预测 (Inter-prediction),即运动补偿。编码器在参考帧中找到与当前块最匹配的区域,只记录下两者之间的运动矢量和微小的内容残差。这是视频压缩率远超单张图片压缩率的根本原因。

第二层:感知层冗余 —— 人类视觉系统的“漏洞”

这一层冗余并非数据本身的属性,而是人类视觉系统(HVS)生理特性的体现。利用这些“漏洞”是实现高倍率有损压缩的关键。

3. 视觉冗余 (Visual Redundancy)

  • 表现:人眼对图像的某些信息不敏感。具体包括:
    • 对高频细节(如精细纹理、剧烈变化的边缘)的敏感度低于平滑的低频区域。
    • 对亮度(Luma)的敏感度远高于对色彩(Chroma)的敏感度。
  • 剔除工具
    • 变换 (DCT/DST) + 量化 (Quantization):首先通过DCT等变换,将像素残差数据从空间域转换到频率域,实现“能量集中”。然后通过量化,“粗暴”地丢弃或降低人眼不敏感的高频系数的精度。这是有损压缩的核心
    • 色度抽样 (Chroma Subsampling):例如 YUV 4:2:0 格式,在保留全部亮度信息的同时,只存储1/4的色彩信息,数据量大幅减少,但人眼几乎无法察觉画质差异。

第三层:编码层冗余 —— 符号表示的数学效率

当我们将预测残差、运动矢量等信息处理完毕后,剩下的是一堆需要用二进制比特来表示的符号。如何用最少的比特来表示它们,就是这一层要解决的问题。

4. 编码冗余 (Coding Redundancy)

  • 表现:在量化后的数据中,某些符号(例如数字“0”)出现的频率远高于其他符号。如果用相同长度的比特串(如8-bit)来表示所有符号,会造成巨大浪费。
  • 剔除工具熵编码 (Entropy Coding)。这是一种无损压缩技术,它根据符号出现的概率进行编码,为高频符号(如大量的“0”系数)分配极短的码字,为低频符号分配较长的码字,达到整体比特数最小化的目的。常用算法有CABAC(上下文自适应二进制算术编码)。

未来范式:语义层冗余 —— 让机器“看懂”视频

这并非一种新的基础冗余类型,而是利用AI技术,在更高维度上对上述三层冗余进行智能化、差异化处理的全新方法论

  • 核心思想:传统编码器对像素一视同仁,而AI编码器能“理解”画面内容。它能识别出什么是人脸、什么是字幕、什么是背景。
  • 应用方式
    • 感知编码优化:AI识别出人眼关注的感兴趣区域(ROI),如人脸和字幕,并为这些区域分配更多的码率(更精细的量化),同时大幅压缩不重要的背景区域。这是一种对视觉冗余更深层次、更智能的利用。
    • 超分与生成式编码:在编码端发送低分辨率的核心信息,在解码端利用强大的AI模型“脑补”出高分辨率的细节。这可以看作是对时空冗余的极致压缩,只传输最核心的运动和轮廓信息。

结论

视频压缩是一个系统工程,它沿着**“信号 → 感知 → 编码”**的路径,对不同层面的冗余进行精准打击。理解这个分层模型,有助于我们看清各种压缩技术在整个体系中所扮演的角色,并洞察到AI技术是如何通过赋予机器“语义理解”能力,来颠覆和重塑这个经典框架的。