从香农的信息论谈起

273 阅读4分钟

1. 信息论的起源

香农于1948年发表论文“A Mathematical Theory of Communication”,由此催生了现代通信系统

1.png

其中,信源编码的目的是进行数据压缩,提高数据传输的有效性;信道编码的目的是提供纠错检错,提高数据传输的可靠性

2.香农三大定理(存在性定理)

2.1 香农第一定理(可变长无失真信源编码定理)

香农第一定理描述了为了能够无失真地传输信源信息,对信源编码所需要地最少码符号数(存在唯一可译码:效率极限与信源熵相关)。

2.2 香农第二定理(有噪信道编码定理)

存在足够复杂地编码方案,可以使信息传输率达到极限(即信道容量),平均差错率接近零。

2.3 香农第三定理(限失真信源编码)

如果对信源编码允许一定量的失真,引入率失真函数R(D)R(D):保证信息传输率大于R(D)R(D),则一定存在一种编码方案,其译码失真小于或等于D+εD+\varepsilon, 其中ε\varepsilon是任意小的正数。

3.信道编码

信道是指通信系统把载荷信息的信号从发送端发送到接收端的媒介或者通道,是包括收发设备在内的物理设施。 信道编码对应到现代通信系统中,其实就是我们常说的2G、3G、4G、5G编码
常见的信道编码有:LDPCPolar码、Turbo码等。
其中在华为和高通的5G标准投票中,主要是涉及LDPC方案和Polar方案,而关于这其中联想到底是怎么投票的笔者就不太了解了(迷)。
整体来说,目前的编码方案一直在不断接近香农的有噪信道编码定理描述的极限。

4.信源编码

信源是产生消息和消息序列的源。消息有着各种不同的形式,如文字、符号、音频图片视频、气味等。
图片常见编码有:JPEG、AVIF等;视频常见编码有:H.264、H.265、AV1等;音频常用编码方案有:AAC、OPUS、MP3等。
不同的信源放在一起也有一系列的封装方案:如MP4(音频、视频、字幕)、PDF(文字、图片)等。 需要注意的是,封装方案一般也很重要,因为这些文件才是我们日常生活中接触到的,也是编解码的入口

4.1 视频编码

众所周知,信源编码的目的就是为了压缩信息,视频可以压缩的原因主要是因为视频文件内部往往存在一些冗余信息:

  • 空间冗余:图像内部像素之间存在较强的相关性;
  • 时间冗余: 视频图像序列中不同帧之间的相关性;
  • 视觉冗余:指人眼不能感知或不敏感的那部分图像信息;
  • 信息熵冗余
  • 知识冗余:指在有些图像中还包含与某些验证知识有关的信息。

目前的编码方案一般将视频图像帧划分为I帧、P帧、B帧:

  • I帧:帧内编码帧,关键帧
  • P帧:前向预测编码帧
  • B帧:双向预测编码帧(记录了本帧与前后帧的差别)

关于视频编码的标准制定:
国际电信联盟:H.261,H.263,H.264,H.265
运动静止图像专家组:MPEG1,MPEG2,MPEG4 AVC(即H.264),HEVC(即H.265)

目前,大家日常接触到的视频文件采用的大多数是H.264,少数采用了H.265。
目前来说,视频编码方案演进比较快,各种编码方案层出不错,有VP8、VP9、H.266等等。
近几年,Google开源了一款优秀的编码方案即AV1,AV1被认为有望取代H.264、H.265的统治地位。
具体到每种编码方案,都比较复杂,有空的时候笔者会加以介绍。

4.2 音频编码

关于音频,需要注意的是,人耳一般只能听到频率20Hz~20KHz的声音,根据Nyguist采样定理,目前的音频文件的采样频率一般为44100Hz即可。
此外,音频压缩的原因还有频谱掩蔽效应、时域掩蔽效应等。
语音通话一般采用OPUS编码方案,直播一般采用AAC方案。
由于音频文件一般比较小,针对一个包含音频的视频,一般大家还是较多关注对于视频帧的压缩。

5 香农的信息论

香农的两篇论文《通信的数学原理》(1948)、《噪声下的通信》(1949)阐明了通信的基本问题,给出了通信系统的模型。此后几十年,随着信息技术的发展,信道编码从2G时代发展到如今的5G时代(虽然5G至今也没催生新应用),信源编码由于在直播、点播、视频会议中被广泛关注,也在不断演进。