信息熵

熵（Entropy）最早概念来源于热力学，玻尔兹曼，普朗克扩展了热力熵： $S = k\log \Omega$ , $k$ 为常数， $\Omega$ 为微观态数. 香农提出了平均信息熵: $H(X)=-\sum_{x\in X}p(x)\log p(x) \tag {1}$ 来衡量信息的量， $X$ 是一个离散的随机变量。

一种理解：如果log以2为底，就是用bit来衡量信息的不确定度。一个bit有两个状态，即，如果有N个bit，那么就可以表示 $2^N$ 个状态，即，可以衡量的平均不确定状态的数量。如果该随机事件总共有N种可能，每种事件发生的概率是一样的，那么平均信息熵 $H=\sum_{x\in X}\frac{1}{N}\log N = \log N$ ，即，可以用N个bit来表示所有的事件状态。实际上，概率的倒数，我们可以粗略的理解为状态数。本文已参与「新人创作礼」活动，一起开启掘金创作之路。

一个简单的例子：

抛硬币会有两种结果，正面(1)和反面(0)，可以记为一个随机变量 $X=\{0, 1\}$ 。预测股票明天涨（1）还是跌（2），也可以用 $X$ 来表示。可以发现，这两个事情可以用同样的随机变量来表示，那么抛硬币和预测股票的不确定性是一样大的吗？可以用公式（1）来计算一下。对于抛硬币正反概率都是0.5，那么 $H(X) = \log 2=1\ bit$ ,对于预测股票，假如我们通过某个内幕消息，获取了涨的概率比跌的概率大，比如 $p(1)=0.6, p(0)=0.4$ ,那么 $H(X)=-0.6\log0.6 - 0.4 \log 0.4 = 0.971\ bit$ . 可以发现预测股票的不确定度比抛硬币要小了，因为“内幕消息”的提供，消除了一定程度上的不确定度，提供了“有用”的信息量。

现在，我们知道可以用公式（1）来计算不确定度，并且对信息量，不确定性，有了一定直观的感觉。但是，知其然，还要知其所以然，我们来看看香农是如何提出的公式（1）。可以自己再发明一遍信息熵。

重新发明信息熵

下面，我们来看看香农文章中是如何发明的信息熵。刚才的简单例子，每个事件是独立的。香农先通过简单的独立事件的观察推导出了信息熵的基本公式。但是现实世界中，很多事件都不是独立的，甚至是连续的，非离散的，可以考虑为离散的马尔科夫过程，利用之前得出的信息熵基本公式，香农又得出了很多有意思的推论。（未完待续。。）香农根据自己的观察和理解，提出了衡量信息量或者不确定性的测度( 可表示为： $H(p_1, p_2, ..., p_n), 其中，p_i 为在离散事件集合X=\{x_1,...,x_n\}$ 中x_i发生的概率，需要具备以下三种性质：

$H$ 对 $p_i$ 是连续函数。
如果所有 $p_i$ 都相等，即 $p_i=1/n$ ,那么 $H$ 是n的单调递增函数。（越多的事件数，不确定性越大）。
$H$ 可以拆分为几个 $H$ 的加权，如， $H(\frac{1}{2},\frac{1}{3},\frac{1}{6},) = H(\frac{1}{2},\frac{1}{2}) +\frac{1}{2} H(\frac{2}{3},\frac{1}{3})$ .

于是，，，唯一满足上述三个条件的 $H$ 具有下列形式： $H = -K\sum_{i=1}^np_i\log p_i \tag{2}$ 其中K是正常数。香农取K=1。下面我们考虑两个随机事件集合， $X$ 和 $Y$ ，即使不独立，根据性质3，或者说利用公式（2），以及条件概率 $p(x, y) = p(x)p(y|x)$ ，容易推得： $H(X, Y) - H(X) = -\sum_{xy}p(x, y)\log p(y|x)$ 于是，定义该式子为条件熵 $H(Y|X)$ 。

（未完待续。。）

互信息

（未完待续。。）

推荐阅读：知乎 Visual Information Theory

浅谈信息论（Information theory）(一)

信息熵

一个简单的例子：

重新发明信息熵

互信息