浅谈信息论(Information theory)(一)

194 阅读3分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。


浅显而深刻易懂的信息论理解。(What I cannot create, I do not understand. ------------- Feynman)

近日需要用到一些互信息的知识,于是又重新学习了一些信息论知识,上一次学习信息论还是8年前杨洁老师的课上。

推荐阅读, 香农提出信息论的文章:

信息熵

熵(Entropy)最早概念来源于热力学,玻尔兹曼,普朗克扩展了热力熵:S=klogΩS = k\log \Omega, kk 为常数,Ω\Omega为微观态数. 香农提出了平均信息熵: H(X)=-\sum_{x\in X}p(x)\log p(x) \tag {1} 来衡量信息的量,XX是一个离散的随机变量。

  • 一种理解:如果log以2为底,就是用bit来衡量信息的不确定度。一个bit有两个状态,即,如果有N个bit,那么就可以表示2N2^N个状态,即,可以衡量的平均不确定状态的数量。如果该随机事件总共有N种可能,每种事件发生的概率是一样的,那么平均信息熵H=xX1NlogN=logNH=\sum_{x\in X}\frac{1}{N}\log N = \log N,即,可以用N个bit来表示所有的事件状态。实际上,概率的倒数,我们可以粗略的理解为状态数。 本文已参与「新人创作礼」活动,一起开启掘金创作之路。

一个简单的例子:

抛硬币会有两种结果,正面(1)和反面(0),可以记为一个随机变量X={0,1}X=\{0, 1\}。预测股票明天涨(1)还是跌(2),也可以用XX来表示。可以发现,这两个事情可以用同样的随机变量来表示,那么抛硬币和预测股票的不确定性是一样大的吗?可以用公式(1)来计算一下。对于抛硬币正反概率都是0.5,那么H(X)=log2=1 bitH(X) = \log 2=1\ bit,对于预测股票,假如我们通过某个内幕消息,获取了涨的概率比跌的概率大,比如p(1)=0.6,p(0)=0.4p(1)=0.6, p(0)=0.4,那么H(X)=0.6log0.60.4log0.4=0.971 bitH(X)=-0.6\log0.6 - 0.4 \log 0.4 = 0.971\ bit. 可以发现预测股票的不确定度比抛硬币要小了,因为“内幕消息”的提供,消除了一定程度上的不确定度,提供了“有用”的信息量。

现在,我们知道可以用公式(1)来计算不确定度,并且对信息量,不确定性,有了一定直观的感觉。但是,知其然,还要知其所以然,我们来看看香农是如何提出的公式(1)。可以自己再发明一遍信息熵。

重新发明信息熵

下面,我们来看看香农文章中是如何发明的信息熵。刚才的简单例子,每个事件是独立的。香农先通过简单的独立事件的观察推导出了信息熵的基本公式。但是现实世界中,很多事件都不是独立的,甚至是连续的,非离散的,可以考虑为离散的马尔科夫过程,利用之前得出的信息熵基本公式,香农又得出了很多有意思的推论。(未完待续。。) 香农根据自己的观察和理解,提出了衡量信息量或者不确定性的测度( 可表示为:H(p1,p2,...,pn),其中,pi为在离散事件集合X={x1,...,xn}H(p_1, p_2, ..., p_n), 其中,p_i 为在离散事件集合X=\{x_1,...,x_n\}中x_i发生的概率,需要具备以下三种性质:

  1. HHpip_i 是连续函数。
  2. 如果所有pip_i都相等,即pi=1/np_i=1/n,那么HH是n的单调递增函数。(越多的事件数,不确定性越大)。
  3. HH 可以拆分为几个HH的加权,如,H(12,13,16,)=H(12,12)+12H(23,13)H(\frac{1}{2},\frac{1}{3},\frac{1}{6},) = H(\frac{1}{2},\frac{1}{2}) +\frac{1}{2} H(\frac{2}{3},\frac{1}{3}).

于是,,,唯一满足上述三个条件的HH具有下列形式: H = -K\sum_{i=1}^np_i\log p_i \tag{2} 其中K是正常数。香农取K=1。 下面我们考虑两个随机事件集合,XXYY,即使不独立,根据性质3,或者说利用公式(2),以及条件概率p(x,y)=p(x)p(yx)p(x, y) = p(x)p(y|x),容易推得: H(X,Y)H(X)=xyp(x,y)logp(yx)H(X, Y) - H(X) = -\sum_{xy}p(x, y)\log p(y|x) 于是,定义该式子为条件熵H(YX)H(Y|X)

(未完待续。。)

互信息

(未完待续。。)

推荐阅读: 知乎 Visual Information Theory