证明: 我们首先证明不等式适用于基数为2的集合 A={a0,a1} 上的分布,设 p0=p(a0),q0=q(a0) 。固定 P0∈[0,1] 并考虑函数 f:q0→f(q0) 定义为
f(q0)=p0logq0p0+(1−p0)log1−q01−p0−2(p0−q0)2(E.12)
观察
f(p0)=0和q0∈(0,1),
f′(q0)=−q0p0+1−q01−p0+4(p0−q0)=(q0−p0)=(q0−p0)[(1−q0)q01−4](E.13)
由于
(1−q0)q0≤41,[1−q0q01−4]
是非负的。因此,对于
q0≤p0,f0(q0)≤0 ,对于 q0≥p0,f0(q0)≥0 。 因此,f 在 q0=p0 处达到最小值,这意味着对于所有q0,f(q0)≥f(p0)=0 。由于 f(q0) 可以表示如下:
f(q0)=D(p∣∣q)−2(p0−q0)2(E.14)
=D(p∣∣q)−21[∣p0−q0+∣(1−p0)−(1−q0)∣]2(E.15)
=D(p∣∣q)−21∣∣p−q∣∣12≥0(E.16)
这证明了基数为 2 的集合 A=a0,a1A=a0,a1 的不等式。现在,考虑在 A=a0,a1 上定义的分布 p′和 q′ ,其中 p0′(a0)=P,x∈a0p(x),q0(a0)=P,x∈a0,q(x) ,其中 a0={x∈X:p(x)≥q(x)} 并且 a1={x∈X:p(x)<q(x)} 。 根据对数和不等式(推论 E.4),
D(p∣∣q)=∑p(x)log[q(x)p(x)]+∑p(x)log[q(x)p(x)](E.17)
≥p(a0)log[q(a0)p(a0)]+p(a1)log[q(a1)p(a1)](E.18)
=D(p′∣∣q′)(E.19)
将此不等式与观察结果相结合
∣∣p′−q′∣∣1=(p(a0)−q(a0))−(p(a1)−q(a1))x∈a0(E.20)
=∑(p(x)−q(x))(x∈a0)−∑(p(x)−q(x))(x∈a1)(E.21)
=∑∣p(x)−q(x)∣(x∈X)(E.22)
=∣∣p−q∣∣1(E.23)
证明了
D(p∣∣q)≥D(p′∣∣q′)≥21∣∣p−q∣∣12
并得出了证明。
定义 E.8(条件相对熵) 设 p和q 是在 X×Y 上定义的两个概率分布和在 X 上定义的 ra 分布。那么, p 和 q 相对于边缘 r 的条件相对熵被定义为 p(⋅∣X) 和 q(⋅∣X) 相对于 r 的相对熵的期望:
X→rE[D(p(⋅∣X)∣∣q(⋅∣X))]=x∈X∑r(x)y∞Y∑p(y∣x)logq(y∣x)p(y∣x)=D(p~∣∣q~),(E.24)
E.3相互信息
图E.2
基于凸可微函数F定义的布雷格曼散度测量的量的图示。散度测量 F(x) 和在点 y 与曲线相切的超平面之间的距离
其中
p(x,y)=r(x)p(y∣x)和q(x,y)=r(x)q(y∣x),
按照惯例
0log0=0,0log00=0,和alog0a=+∞,a≥0,
E.3 相互信息
定义E.9(相互信息)
设X和Y是两个随机变量,具有联合概率分布函数 p(,) 和边际概率分布函数 p(x) 和 p(y) 。然后, X 和 Y 的互信息用 I(X,Y) 表示,定义如下:
I(X,Y)=D(p(x,y)∣∣p(x)p(y))(E.25)
=p(x,y)E[logp(X)p(Y)p(X,Y)]=x∈X,y∈Y∑p(x,y)log[p(x)p(y)p(x,y)],(E.26)
按照惯例
0log0=0,0log00=0,和alog0a=+∞,a≥0,
当随机变量 X 和 Y 是独立的时,它们的联合分布是边际 p(x) 和 p(y) 的乘积。因此,当 X 和 Y 独立时,互信息是联合分布 p(x,Y) 与其值的接近度的度量,其中接近度通过相对熵散度来度量。因此,它可以被视为每个随机变量可以提供的关于另一个的信息量的度量。注意,通过命题E.3,等式 I(X,Y)=0 对于所有 X,Y 都成立 iffp(x,y)=p(x)p(y) ,即 iffX 和 Y 是独立的。
E.4 Bregman分歧
在这里,我们引入了为 RX 中所有非负函数 p,q,D~ 定义的所谓非正规相对熵
D~(p∣∣q)=x∈X∑p(x)log[q(x)p(x)]+(q(x)−p(x)),(E.27)
表E.1
布雷格曼发散和相应凸函数的例子。
使用约定 0log0=0,0log00=0 , 和 alog0a=+∞,a>0 . 相对熵当限制为 ∆×∆ 时,与未归一化的相对熵一致,其中 ∆ 是在 X 上定义的分布。相对熵继承了未归一化的几个属性相对熵,特别是,可以证明 D~(p∣∣q)≥0 。许多这些性质都在一个更广泛的分歧家族共享的事实,称为布雷格曼分歧。
定义E.10(布雷格曼分歧)
设 F 是定义在希尔伯特空间h中的凸(开)集C上的凸可微函数。然后,由下式为所有 x,y∈C 定义与 F 相关的Bregman散度 BF
BF(x∣∣y)=F(x)−F(y)−⟨▽F(y),x−y⟩.(E.28)
因此, BF(x∣∣y) 测量 F(x) 的差及其线性近似。图E.2说明了这个定义。表E.1提供了布雷格曼发散的几个例子以及它们相应的凸函数 F(x) 。注意,虽然非正规相对熵是一个布雷格曼散度,但相对熵不是一个布雷格曼散度,因为它是定义在不是开集且内部为空的单形上的。以下命题给出了布雷格曼发散的几个一般性质。
命题E.11
设 F 是定义在希尔伯特空间 h 中凸集 C 上的凸可微函数,那么,下列性质成立:
1.∀x,y∈ζ,BF(z∣∣y)≥0.
2.∀x,y,z∈ζ,⟨▽F(x)−▽F(y),x−z⟩=BF(x∣∣y)+BF(z∣∣x)−bf(Z∣∣Y).
-
BF 的第一个参数是凸的。 如果另外 F 是严格凸的,则 BF 在其第一个参数中是严格凸的。
-
线性:假设G是C上的凸可微函数,那么,对于任何 α,β∈R,BαF+βG=αBF+βBG.
对于下列性质,我们将另外假设 F 是严格凸的。
-
Projection: for any y∈ζ 任何闭凸集 κ∈ζ , y 在 K 上的 BF 投影 Pκ(y)=argminx∈κBF(x∣∣y), 独一无二。
6.勾股定理:对于 y∈C 和任意闭凸集 K∈C ,以下定理适用于所有 x∈K:
7.共轭发散:假设 f 是闭真严格凸的,并且其梯度的范数在 C:limx→δζ∣∣▽F(x)∣∣=+∞ 的边界附近趋于无穷大。这对 (ζ,F) 于是被称为勒让德型凸函数。那么,F,F∫ 的共轭是可微的,并且以下适用于所有 x,y∈ζ:
BF(x∣∣y)=BF∗(▽F(y)∣∣▽F(x)).(E.30)
E.4 Bregman分歧
图E.3
命题E.11中勾股定理的描述,其中每条线的平方长度说明了它所连接的点之间的布雷格曼散度的大小。证明:性质(1)通过函数 F 的凸性成立( F 的图在其切线之上,见方程(B.3))。性质(2)直接来自布雷格曼散度的定义:
Bf(x∣∣y)+BF(z∣∣y)−BF(z∣∣y)=−⟨▽F(y),x−y⟩−⟨▽F(x),z−x⟩+⟨▽F(y),z−y⟩=⟨▽F(x)−▽F(y),x−z⟩
性质(3)成立,因为 x→F(x)−F(y)−⟨▽F(y),x−y⟩ 是凸函数 x7→f(x) 和仿射的和的凸函数 x→F(x)−F(y)−⟨▽F(y),x−y⟩ 。类似地,如果 F 是严格凸的,作为严格凸函数和仿射函数的和, BF 关于它的第一个变元是严格凸的。性质(4)来自一系列等式:
BαF+βG=αF(x)+βG(x)−αF(y)−βG(T)−⟨▽(αF(y)+βG(y)+βG(y)),x−y⟩
=α(F(x)−F(y)−⟨▽F(y),x−y⟩))+β(G(x)−G(y)−⟨▽G(y),x−y⟩)
=αBF+βBG,
我们利用了梯度和内积都是线性函数的事实。性质(5)成立,因为根据性质(3), minx∈KBF(xky) 是具有严格凸目标函数的凸优化问题。对于性质(6),固定 y∈C ,让 J 为所有 α∈[0,1] 定义的函数
J(α)=BF(αx+(1−α)Pκ(y)∣∣y).
由于 C 是凸的,对于任何 α∈[0,1] , αx+(1−α)PK(y) 在 C 中。 (1−α)Pκ(y) 。 根据 Pκ(y) 的定义,
对于任何 α∈(0,1] ,
αJ(α)−J(0)=αBF(αx+(1−α)Pκ(y)∣∣y)−BF(Pκ(y)∣∣y)≥.(E.31)
这意味着 J′(0)≥0. 根据 J(α) 的以下表达式:
J(α)=F(αx+(1−α)Pκ(y))−F(y)−⟨▽F(y),αx+(1−α)Pκ(y)−y,⟩(E.32)
我们可以在0:
J′(0)=⟨x−Pκ(y),▽F(Pκ(y))⟩−⟨▽F(y),x−Pκ(y)⟩=−BF(x∣∣Pκ(y))+F(x)−F(Pκ(y))−⟨▽F(y),x−Pκ(y)⟩=−BF(x∣∣Pκ(y))+F(x)−F(Pκ(y))−⟨▽F(y),x−y⟩−⟨▽F(y),y−Pκ(y)⟩=−BF(x∣∣Pκ(y)+BF(x∣∣y)+F(y)−F(Pκ(y))−F(Pκ(y))−⟨▽F(y),y−Pκ(y)⟩)=−BF(x∣∣Pκ(y))+BF(x∣∣y)−BF(Pκ(y)∣∣y)≥0,
从而得出性质 (6) 的证明。
对于性质(7),注意,根据定义,对于任何
y,F∗
由下式定义:
F∗(y)=x∈ζsup{⟨x,y⟩−F(x)}.(E.33)
F∗ 是凸的,在任意 y 上允许有一个次微分。通过 F 的严格凸性,函数 x→⟨x,y⟩−F(x)在ζ 和它的梯度范数上是严格凹的和可微的, y−⟨▽F(x)⟩ ,在靠近 ζ 的边界处趋于无穷大(根据为 F 假设的相应性质)。因此,它的上确界是在唯一的点 xy∈ζ 处达到的,这里它的梯度为零,即在 ▽F(xy)=y 处。这意味着对于任何 y, δF∗(y) , F∗ 的次微分,减少为单例。因此, F∗ 是可微的,它在 y 的梯度是 ▽F∗(y)=xy=▽−1F(y) .由于 F∗ 是凸的和可微的,它的Bregman散度是很好定义的。此外,自 xy=▽−1F(y) 起的 F∗(y)=⟨▽F−1(y),y⟩−F(▽F−1(y)) 对于任何 x,y∈ζ ,利用 BF∗ 的定义和 ▽F∗(y) 和 F∗(y) 的表达式,我们可以写出
BF∗(▽F(y)∣∣▽F(x))=F∗(▽F(y))−F∗(▽F(x))−⟨▽−1F(▽F(x)),▽F(y)−▽F(x)⟩=F∗(▽F(y))−F∗(▽F(x))−⟨x,▽F(y)−▽F(x)⟩=⟨▽−1F(▽F(y)),▽F(y)⟩−F(▽−1F(▽F(y)))−⟨▽−1F(▽F(x)),▽F(x)⟩+F(▽−1F(▽F(x)))−⟨x,▽F(y)−▽F(x)⟩=⟨y,▽F(y)⟩−F(y)−⟨x,▽F(x)⟩+F(x)−⟨x,▽F(y)−▽F(x)⟩=⟨y,▽F(y)⟩−F(y)+F(x)−⟨x,▽F(y)⟩=F(x)−F(y)−⟨x−y,▽F(y)=BF(x∣∣y)⟩
这就完成了证明。
请注意,虽然未标准化的相对熵(因此相对熵)是它们的一对自变量的凸函数,但这通常不适用于所有的布雷格曼发散,只保证了相对于第一个自变量的凸性。布雷格曼散度的概念可以扩展到不可微函数的情况(见14.3节)。
第五章注释
本章提出熵的概念是由于香农[1948],他在同一篇文章中更一般地奠定了信息论的基础。伊恩[1961]后来引入了熵(伊恩熵)和相对熵(伊恩散度)的更一般的定义。库尔巴克-莱布勒散度是在[库尔巴克和莱布勒,1951]中引入的。平斯基的不平等是由于平斯基[1964]。与相对熵和L1范数相关的更精细的不等式后来由Csisz ar [1967]和Kullback [1967]给出。参见[里德和威廉姆森,2009]将此类不等式推广到f-发散的情况。布雷格曼分歧的概念是由于布雷格曼[1967]。关于信息论更广泛的材料,我们强烈推荐封面和托马斯[2006]的书。
E.6 练习
图E.4
平行四边形恒等式的说明。
E.6 练习
E.1 平行四边形恒等式。证明X上任意三个分布p,q和r的以下平行四边形恒等式:
D(p∣∣r)+D(q∣∣r)=2d(2p+q∣∣r)+D(p∣∣2p+q)+D(q∣∣2p+q).(E.34)
如果我们用范数-2的平方代替相对熵,等式成立吗?图E.4说明了这种身份的一个特殊例子。注意,在我们的例子中
∣∣p−r∣∣2=∣∣(p−2p+q)+(2p+q)−r∣∣2=∣∣p−2p+q∣∣2+∣∣2p+q−r∣∣2−2cos(π−θ)∣∣p−2p+q∣∣∣∣2p+q−r∣∣
和
∣∣q−r∣∣2=∣∣(q−2p+q)+(2p+q−r)∣∣2=∣∣q−2p+q∣∣2+∣∣2p+q−r∣∣2−2cos(θ)∣∣q−2p+q∣∣∣∣2p+q−r∣∣.
将这两个量相加表明这个例子的恒等式成立。