信息论基础即事件的不确定性越大, 信息熵就越大, 信息量也就越多. 假定和是两个随机变量, 是我们需要了解的. 假定

信息熵(Information Entropy)

信息论认为，一条信息的信息量与其不确定性有着直接的关系. 举个例子，如果要问今年的世界杯冠军是哪支球队，答案是肯定的：法国队；但如果问下一届世界杯的冠军是哪支球队，这个问题就会有很多答案，甚至哪些球队能进入世界杯决赛圈都是难以猜测的，因此，下届世界杯冠军得主这个事件就具有了更多的信息.

对于信息量的度量, 香农(Claude Shannon)提出了信息熵的概念, 具体公式如下:

即事件的不确定性越大, 信息熵就越大, 信息量也就越多.

条件熵(Conditional Entropy)

我们知道, 知道的信息越多, 事件的不确定性就越低, 那么假如我们知道了该事件的相关事件的一些信息, 那么是不是就意味着我们也能降低此事件的不确定性呢? 为了证明这些相关的信息能够消除不确定性, 我们引入一个条件熵的概念.

假定 $X$ 和 $Y$ 是两个随机变量, $X$ 是我们需要了解的. 假定我们知道了 $X$ 的随机分布 $P(X)$ , 那么也就知道了 $X$ 的熵:

假如我们还知道了 $Y$ 的一些信息, 包括它和 $X$ 的联合概率分布(Joint Probability), 以及在 $Y$ 取不同值的前提下 $X$ 的概率分布, 即条件概率分布(Conditional Probability). 那么定义在 $Y$ 的条件下的条件熵为: