信息量、信息熵、信息增益与基尼系数信息熵用来描述不确定性，不确定性越大，信息熵越大。本文介绍信息量、信息熵，交叉熵的基本

信息量（自信息）

描述随机事件的不确定性。观测到随机事件发生后对不确定性的减少值。

I(x)=-logP(x)

用来描述样本空间系统整体不确定性，用信息量的期望表示

H(X)=-\sum_{x \in X}{P(x)logP(x)}

系统不确定性越大，信息熵越大，比如“太阳每天升起方位”随机事件只有“从东方升起”一种情况，没有任何不确定性，信息熵很小；抛硬时正面还是背面朝上不确定，信息熵很大。
有可加性，独立随机事件联合分布的熵等于各自熵的和。
单个小概率事件的信息熵（即其携带的信息量）远大于单个大概率事件。

分类后信息熵减少的量，减少的不确定性

G（X，a）=H(x)-\sum \frac{|X_{sub}|}{|X|}H(X_{sub})

$|X_{sub}|$ 表示根据特征a分类后各个子集元素个数， $|X|$ 表示分类前集合个数

给信息增益加惩罚项，降低属性种类多的权重

信息增益率=\frac{信息增益}{分裂程度}。

分裂程度=-\sum\frac{|D_{sub}|}{|D|}log\frac{|D_{sub}|}{|D|}

Gini(X)=1-\sum_{x \in X}P(x)^2

用一个分布来度量另一个分布，两个分布差别越小，交叉熵越小，

不可能事件一定不发生，其熵为0。
“不可能事件”无信息量：信息量的本质是“事件发生时消除的不确定性”。而不可能发生的事件（如“太阳从西方永久升起”）永远不会发生，既不存在“发生”的可能，也无法消除任何现实中的不确定性，因此讨论其信息量无实际意义。