本文已参与「新人创作礼」活动,一起开启掘金创作之路。
浅显而深刻易懂的信息论理解。(What I cannot create, I do not understand. ------------- Feynman)
近日需要用到一些互信息的知识,于是又重新学习了一些信息论知识,上一次学习信息论还是8年前杨洁老师的课上。
推荐阅读, 香农提出信息论的文章:
信息熵
熵(Entropy)最早概念来源于热力学,玻尔兹曼,普朗克扩展了热力熵:, 为常数,为微观态数. 香农提出了平均信息熵: H(X)=-\sum_{x\in X}p(x)\log p(x) \tag {1} 来衡量信息的量,是一个离散的随机变量。
- 一种理解:如果log以2为底,就是用bit来衡量信息的不确定度。一个bit有两个状态,即,如果有N个bit,那么就可以表示个状态,即,可以衡量的平均不确定状态的数量。如果该随机事件总共有N种可能,每种事件发生的概率是一样的,那么平均信息熵,即,可以用N个bit来表示所有的事件状态。实际上,概率的倒数,我们可以粗略的理解为状态数。 本文已参与「新人创作礼」活动,一起开启掘金创作之路。
一个简单的例子:
抛硬币会有两种结果,正面(1)和反面(0),可以记为一个随机变量。预测股票明天涨(1)还是跌(2),也可以用来表示。可以发现,这两个事情可以用同样的随机变量来表示,那么抛硬币和预测股票的不确定性是一样大的吗?可以用公式(1)来计算一下。对于抛硬币正反概率都是0.5,那么,对于预测股票,假如我们通过某个内幕消息,获取了涨的概率比跌的概率大,比如,那么. 可以发现预测股票的不确定度比抛硬币要小了,因为“内幕消息”的提供,消除了一定程度上的不确定度,提供了“有用”的信息量。
现在,我们知道可以用公式(1)来计算不确定度,并且对信息量,不确定性,有了一定直观的感觉。但是,知其然,还要知其所以然,我们来看看香农是如何提出的公式(1)。可以自己再发明一遍信息熵。
重新发明信息熵
下面,我们来看看香农文章中是如何发明的信息熵。刚才的简单例子,每个事件是独立的。香农先通过简单的独立事件的观察推导出了信息熵的基本公式。但是现实世界中,很多事件都不是独立的,甚至是连续的,非离散的,可以考虑为离散的马尔科夫过程,利用之前得出的信息熵基本公式,香农又得出了很多有意思的推论。(未完待续。。) 香农根据自己的观察和理解,提出了衡量信息量或者不确定性的测度( 可表示为:中x_i发生的概率,需要具备以下三种性质:
- 对 是连续函数。
- 如果所有都相等,即,那么是n的单调递增函数。(越多的事件数,不确定性越大)。
- 可以拆分为几个的加权,如,.
于是,,,唯一满足上述三个条件的具有下列形式: H = -K\sum_{i=1}^np_i\log p_i \tag{2} 其中K是正常数。香农取K=1。 下面我们考虑两个随机事件集合,和,即使不独立,根据性质3,或者说利用公式(2),以及条件概率,容易推得: 于是,定义该式子为条件熵。
(未完待续。。)
互信息
(未完待续。。)
推荐阅读: 知乎 Visual Information Theory