E 信息论的概念

235 阅读3分钟

E    信息论的概念

本章介绍了信息论的一些基本概念,这些概念有助于介绍 几种学习算法及其性质。定义和定理在 离散随机变量或分布的情况,但它们可以直接扩展到 连续案例。 我们从熵的概念开始,它可以被看作是一个系统不确定性的度量 随机变量。

E.1熵

定义E.1(熵)具有概率质量的离散随机变量 XX 的熵

函数 p(x)=P[X=x]p(x)=\mathbb{P}[X=x]H(x)H(x) 表示,定义为

H(X)=E[log(p(X))]=x Xp(x)log(p(x))(E.1)H(X)=-\mathbb{E}[log(p(X))]=\sum_{x\in\mathcal X}p(x)\log\big(p(x)\big)\qquad\qquad\qquad (E.1)

我们用同样的表达式定义了分布 pp 的熵,并滥用地表示为 H(p)H(p) .

在这个定义中,对数的底不是关键的,因为它只影响一个数值乘法常数。因此,除非另有说明,否则我们将考虑自然对数( ee 基)。如果我们使用基数 22 ,那么 log2(p(x))\log2(p(x)) 是表示 p(x)p(x) 所需的位数。 因此,根据定义, XX 的熵可以被视为平均比特数(或数量) (指信息)用于描述随机变量 XX 。通过相同的属性 熵总是非负的:

H(X)0(E.2)H(X)≥ 0\qquad\qquad\qquad(E.2)

例如,有偏硬币的熵XpXp取概率为 pp 的值 11 和概率为 pp 的值 00 概率 1p1∞ p 由下式给出

H(Xp)=plogp(1p)log(1)p)(E.3)H(Xp)=p log p√ (1 ∞ p) log (1)\infty p)\qquad\qquad\qquad (E.3)

pp 的对应函数通常称为二元熵函数。图 E.1E.1 显示使用基数 22 作为对数时该函数的曲线图。从图中可以看出, 熵是一个凹函数。 2626 它在 p=12p=12 时达到最大值 ,对应于 最不确定的情况,以及与完全确定的情况相对应的 p=0p=0p=1p=1 时的最小值。 更一般地,假设输入空间 XX 具有有限基数 N1N≥ 1 .然后,由詹森的附录 EE 信息论的概念。

稍后我们将看到熵函数总是凹的。

image.png
E.1E.1 二元熵和偏压 pp 的函数关系图
不等式,鉴于对数的凹性,下列不等式成立:

H(X)=E[log1p(x)logE[1p(x)]=log(x Xp(x)p(x))=logNH(X)=-\mathbb{E}\left[log\frac{1}{p(x)}≤log\mathbb{E}[\frac{1}{p(x)}\right]=log\left(\sum_{x\in\mathcal X}\frac{p(x)}{p(x)}\right)=logN

因此,更一般地,熵的最大值是 lognlogn ,即均匀分布。 熵是无损数据压缩的下限,因此是一个临界量 。它还与热力学、动力学和量子物理学中的熵概念密切相关。

E.2相对熵

这里,我们介绍两个分布 ppqq 之间的散度,相对熵, 这与熵的概念有关。以下是其在离散情况下的定义。 定义 E.2E.2 (相对熵)两个粒子的相对熵(或库尔贝克-莱布勒散度) 分布 ppqqDpkqD(pkq) 表示,定义为

D(p||q)=\underset{p}\mathbb{E}\left[log\frac{p(x)}{p(x)}\right]=\sum_{x\in\mathcal X}p(x)log\left[\frac{p(x)}{p(x)}\right]\qquad\qquad\qquad(E.5)

按照惯例 0log0=00log0=0 , 0log00=00log\frac{0}{0}=0 ,和 aloga0=+对于a>0alog\frac{a}{0}=+∞对于a>0

注意,考虑到这些约定,当支持 pp 的某些 xxq(x)=0q(x)=0(p(x)>0)(p(x)>0) ,相对熵为无穷大: D(pq)=D(p||q)=∞ . 因此,相对熵不存在 在这种情况下,提供 ppqq 偏差的信息性度量。

至于熵,在相对熵的定义中,对数的底并不重要, 除非另有说明,否则我们将考虑自然对数。如果我们使用基数 22 , 相对熵可以用编码长度来解释。理想情况下,可以为 pp 设计 平均长度为熵 H(p)H(p) 的最优码。相对熵是平均数 当使用 qq 的最佳代码而不是 pp 的最佳代码时,编码 pp 所需的额外比特数,因为可以表示为差值

D(pq)=Ep[log1q(X)]H(p)D(p||q)=\mathbb{E}_{_p} \left[log\frac{1}{q(X)}\right]-H(p)

如下所示命题,总是非否定的。

命题E.3(相对熵的非负性)对于任意两个分布p和q

以下不平等性:

D(pq)0(E.6)D(p||q)≥ 0 \qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad(E.6)

此外,当 p=qp=q 时, D(pq)=0D(p||q)=0

证明:根据对数的凹性和 JensenJensen 不等式,以下结论成立:

D(pq)=x:p(x)>0p(x)log(q(x)p(x))log(x:p(x)>0p(x)q(x)p(x))=log(x:p(x)>0q(x))log(1)=0\begin{aligned} −D(p||q)=\sum_{x:p(x)>0}p(x)log\left(\frac{q(x)}{p(x)}\right)&≤log\left(\sum_{x:p(x)>0}p(x)\frac{q(x)}{p(x)}\right)\\ &=log\left(\sum_{x:p(x)>0}q(x)\right)\le log(1)=0 \end{aligned}

因此,对于所有分布 ppqq ,相对熵总是非负的。平等 D(pq)=0D(p||q)=0 仅当上述两个不等式都相等时才成立。最后一个意味着那个 x:p(x)>0q(x)=1\sum_{x:p(x)>0}q(x)=1 。由于对数函数是严格凹的,第一个不等式可以是 仅当 q(x)p(x)\frac{q(x)}{p(x)} 时的等式是 {x:p(x)>0} 上的常数α。因为 p(x)p(x) 和是一对一, 那一套,我们必须有 x:p(x)>0q(x)=α\sum_{x:p(x)>0}q(x)=α 。因此, α=1α=1 ,这意味着 q(x)=p(x)q(x)=p(x)\qquad x∈ {x:p(x)>0},因此对于所有 ,因此对于所有x。最后,根据定义,对于任何分布。最后,根据定义,对于任何分布pD(p||p)=0$ , 这就完成了证明。

相对熵不是距离。它是不对称的:一般来说, D(pq)(qp)D(p||q)\neq(q||p) 表示两个分布 ppqq 。此外,一般来说,相对熵不能验证三角形不平等.

E.4 对数和不等式

任意一组非负实数 a1a{_1} ,…, ana{_n} 的推论,和 b1b{_1} ,…, bnb{_n} ,以下不等式成立:

i=1nailog(aibi)(i=1nai)log(i=1naii=1nbi)(E.7)\sum_{i=1}^na{_i}log\left(\frac{a_i}{b_i}\right)\ge\left(\sum_{i=1}^na{_i}\right)\log\left(\frac{\sum_{i=1}^na_i}{\sum_{i=1}^nb_i}\right)\qquad\qquad\qquad(E.7)

按照惯例 0log0=00log0=0 , 0log00=00log\frac{0}{0}=0 ,和 aloga0=+alog\frac{a}{0}=+∞ 对于 a>0a>0
此外,在 (E.7)(E.7) 条中平等是成立的仅在 aibi\frac{a_i}{b_i} 是一个常数(不依赖于i).
证据:随着公约的通过,很明显,如果 i=1nai=0\sum_{i=1}^na_i=0ai=0a_i=0 对于 i [n]i\in\mathcal [n] 或者 i=1nbi=0\sum_{i=1}^nb_i=0 对所有i[n]i\in\mathcal[n]. 因此我们可以假设 i=1nai0\sum_{i=1}^na_i\neq0i=1nbi0\sum_{i=1}^nb_i\neq0. 由于不等式通过 aisa_isbisb_is 的标度是不变的,我们可以将它们乘以正常数这样i=1nai=i=1nbi=1\sum_{i=1}^na_i=\sum_{i=1}^nb_i=1 那么不平等呢?与由此定义的分布的相对熵的非负性一致 aisa_isbisb_is 以及命题 E.3E.3 得出的结果。

推论E.5(相对熵的联合凸性)

相对熵函数 (pq)D(pq)(p,q)\mapsto D (p||q) 它是凸的。
证据:任何 α[0,1]α ∈ [0, 1] 和任意四个概率分布 p1p2q1q2p_1,p_2,q_1,q_2 ,通过对数和不等式(推论 E.4E.4 ),对于任何固定的 xx ,下列等式成立:

(αp1(x)+(1α)p2(x))log[αp1(x)+(1α)p2(x)αq1(x)+(1αq2(x)]αp1(x)log[αp1(x)αq1(x)]+(1αp2(x)log[(1α)p1(x)(1α)q2(x)].(E.8)\begin{aligned} \big(\alpha p_1(x)+(1-\alpha)p_2(x)\big)log&\left[\frac{\alpha p_1(x)+(1-\alpha)p_2(x)}{\alpha q_1(x)+(1-\alpha q_2(x)}\right]\\&\le\alpha p_1(x)log\left[\frac{\alpha p_1(x)}{\alpha q_1(x)}\right]+(1-\alpha p_2(x)log\left[\frac{(1-\alpha)p_1(x)}{(1-\alpha)q_2(x)}\right] .(E.8) \end{aligned}

总结所有 xx 收益率的这些不等式:

D(αp1+(1α)p2αq1+(1α)q2)αD(p1q1)+(1α)D(p2q2),(E.9)D\big(\alpha p_1+(1-\alpha)p_2||\alpha q_1+(1-\alpha)q_2\big)\le\alpha D(p_1||q_1)+(1-\alpha)D(p_2||q_2),\qquad\qquad\qquad(E.9)

这就是证据的结论。

推论E.6(熵的凹性)

熵函数 PHpP\mapsto H(p) 是凹的.
证明:对于 XX 上的任何固定分布 p0p_0 ,根据相对熵的定义,我们可以写作

D(pp0)=xXp(x)log(p(x))xXp(x)log(p0(x))(E.10)D(p||p_0)=\sum_{x\in\mathcal X}p(x)log\big(p(x)\big)-\sum_{x\in\mathcal X}p(x)log\big(p_0(x)\big) \qquad\qquad\qquad\qquad(E.10)

因此, H(p)=D(pp0)xXp(x)log(p0(x))H(p)=-D(p||p_0)-\sum_{x\in\mathcal X}p(x)log\big(p_0(x)\big).根据推论 E.5E.5 ,第一项是凹项 pp 。第二项在 pp 中是线性的,因此是凹的。因此, HH 作为 aa 是凹的两个凹函数之和。

命题E.7(Pinsker不等式)

对于任意两个分布 ppqq ,以下不等式成立:

D(pq)12pq12(E.11)D(p||q)\ge\frac{1}{2}||p-q||_1^2\qquad\qquad\qquad(E.11)

证据: