E 信息论的概念
本章介绍了信息论的一些基本概念,这些概念有助于介绍
几种学习算法及其性质。定义和定理在
离散随机变量或分布的情况,但它们可以直接扩展到
连续案例。
我们从熵的概念开始,它可以被看作是一个系统不确定性的度量
随机变量。
E.1熵
定义E.1(熵)具有概率质量的离散随机变量 X 的熵
函数 p(x)=P[X=x] 由 H(x) 表示,定义为
H(X)=−E[log(p(X))]=x∈ X∑p(x)log(p(x))(E.1)
我们用同样的表达式定义了分布 p 的熵,并滥用地表示为 H(p) .
在这个定义中,对数的底不是关键的,因为它只影响一个数值乘法常数。因此,除非另有说明,否则我们将考虑自然对数( e 基)。如果我们使用基数 2 ,那么 log2(p(x)) 是表示 p(x) 所需的位数。
因此,根据定义, X 的熵可以被视为平均比特数(或数量)
(指信息)用于描述随机变量 X 。通过相同的属性
熵总是非负的:
H(X)≥0(E.2)
例如,有偏硬币的熵Xp取概率为 p 的值 1 和概率为 p 的值 0
概率 1∞p 由下式给出
H(Xp)=plogp√(1∞p)log(1)∞p)(E.3)
p 的对应函数通常称为二元熵函数。图 E.1
显示使用基数 2 作为对数时该函数的曲线图。从图中可以看出,
熵是一个凹函数。 26 它在 p=12 时达到最大值
,对应于
最不确定的情况,以及与完全确定的情况相对应的 p=0 或 p=1 时的最小值。
更一般地,假设输入空间 X 具有有限基数 N≥1 .然后,由詹森的附录 E 信息论的概念。
稍后我们将看到熵函数总是凹的。

图 E.1 二元熵和偏压 p 的函数关系图
不等式,鉴于对数的凹性,下列不等式成立:
H(X)=−E[logp(x)1≤logE[p(x)1]=log(x∈ X∑p(x)p(x))=logN
因此,更一般地,熵的最大值是 logn ,即均匀分布。
熵是无损数据压缩的下限,因此是一个临界量
。它还与热力学、动力学和量子物理学中的熵概念密切相关。
E.2相对熵
这里,我们介绍两个分布 p 和 q 之间的散度,相对熵,
这与熵的概念有关。以下是其在离散情况下的定义。
定义 E.2 (相对熵)两个粒子的相对熵(或库尔贝克-莱布勒散度)
分布 p 和 q 用 D(pkq) 表示,定义为
D(p||q)=\underset{p}\mathbb{E}\left[log\frac{p(x)}{p(x)}\right]=\sum_{x\in\mathcal X}p(x)log\left[\frac{p(x)}{p(x)}\right]\qquad\qquad\qquad(E.5)
按照惯例 0log0=0 , 0log00=0 ,和 alog0a=+∞对于a>0
注意,考虑到这些约定,当支持 p 的某些 x 的 q(x)=0 时
(p(x)>0) ,相对熵为无穷大: D(p∣∣q)=∞ . 因此,相对熵不存在
在这种情况下,提供 p 和 q 偏差的信息性度量。
至于熵,在相对熵的定义中,对数的底并不重要,
除非另有说明,否则我们将考虑自然对数。如果我们使用基数 2 ,
相对熵可以用编码长度来解释。理想情况下,可以为 p 设计
平均长度为熵 H(p) 的最优码。相对熵是平均数
当使用 q 的最佳代码而不是 p 的最佳代码时,编码 p 所需的额外比特数,因为可以表示为差值
D(p∣∣q)=Ep[logq(X)1]−H(p)
如下所示命题,总是非否定的。
命题E.3(相对熵的非负性)对于任意两个分布p和q
以下不平等性:
D(p∣∣q)≥0(E.6)
此外,当 p=q 时, D(p∣∣q)=0 。
证明:根据对数的凹性和 Jensen 不等式,以下结论成立:
−D(p∣∣q)=x:p(x)>0∑p(x)log(p(x)q(x))≤log⎝⎛x:p(x)>0∑p(x)p(x)q(x)⎠⎞=log⎝⎛x:p(x)>0∑q(x)⎠⎞≤log(1)=0
因此,对于所有分布 p 和 q ,相对熵总是非负的。平等
D(p∣∣q)=0 仅当上述两个不等式都相等时才成立。最后一个意味着那个 ∑x:p(x)>0q(x)=1 。由于对数函数是严格凹的,第一个不等式可以是
仅当 p(x)q(x) 时的等式是 {x:p(x)>0} 上的常数α。因为 p(x) 和是一对一,
那一套,我们必须有 ∑x:p(x)>0q(x)=α 。因此, α=1 ,这意味着 q(x)=p(x) x∈ {x:p(x)>0},因此对于所有x。最后,根据定义,对于任何分布p,D(p||p)=0$ ,
这就完成了证明。
相对熵不是距离。它是不对称的:一般来说, D(p∣∣q)=(q∣∣p) 表示两个分布 p 和 q 。此外,一般来说,相对熵不能验证三角形不平等.
E.4 对数和不等式
任意一组非负实数 a1 ,…, an 的推论,和
b1 ,…, bn ,以下不等式成立:
i=1∑nailog(biai)≥(i=1∑nai)log(∑i=1nbi∑i=1nai)(E.7)
按照惯例 0log0=0 , 0log00=0 ,和 alog0a=+∞ 对于 a>0
此外,在 (E.7) 条中平等是成立的仅在 biai 是一个常数(不依赖于i).
证据:随着公约的通过,很明显,如果 ∑i=1nai=0 即 ai=0 对于 i∈ [n] 或者 ∑i=1nbi=0 对所有i∈[n].
因此我们可以假设 ∑i=1nai=0 和 ∑i=1nbi=0.
由于不等式通过 ais 或 bis 的标度是不变的,我们可以将它们乘以正常数这样∑i=1nai=∑i=1nbi=1 那么不平等呢?与由此定义的分布的相对熵的非负性一致 ais 和 bis 以及命题 E.3 得出的结果。
推论E.5(相对熵的联合凸性)
相对熵函数 (p,q)↦D(p∣∣q) 它是凸的。
证据:任何 α∈[0,1] 和任意四个概率分布 p1,p2,q1,q2 ,通过对数和不等式(推论 E.4 ),对于任何固定的 x ,下列等式成立:
(αp1(x)+(1−α)p2(x))log[αq1(x)+(1−αq2(x)αp1(x)+(1−α)p2(x)]≤αp1(x)log[αq1(x)αp1(x)]+(1−αp2(x)log[(1−α)q2(x)(1−α)p1(x)].(E.8)
总结所有 x 收益率的这些不等式:
D(αp1+(1−α)p2∣∣αq1+(1−α)q2)≤αD(p1∣∣q1)+(1−α)D(p2∣∣q2),(E.9)
这就是证据的结论。
推论E.6(熵的凹性)
熵函数 P↦H(p) 是凹的.
证明:对于 X 上的任何固定分布 p0 ,根据相对熵的定义,我们可以写作
D(p∣∣p0)=x∈X∑p(x)log(p(x))−x∈X∑p(x)log(p0(x))(E.10)
因此, H(p)=−D(p∣∣p0)−∑x∈Xp(x)log(p0(x)).根据推论 E.5 ,第一项是凹项 p 。第二项在 p 中是线性的,因此是凹的。因此, H 作为 a 是凹的两个凹函数之和。
命题E.7(Pinsker不等式)
对于任意两个分布 p 和 q ,以下不等式成立:
D(p∣∣q)≥21∣∣p−q∣∣12(E.11)
证据: