信息量、信息熵、信息增益与基尼系数

227 阅读2分钟

信息量(自信息)

描述随机事件的不确定性。观测到随机事件发生后对不确定性的减少值。

I(x)=logP(x)I(x)=-logP(x)

信息熵

用来描述样本空间系统整体不确定性,用信息量的期望表示

H(X)=xXP(x)logP(x)H(X)=-\sum_{x \in X}{P(x)logP(x)}
  • 系统不确定性越大,信息熵越大,比如“太阳每天升起方位”随机事件只有“从东方升起”一种情况,没有任何不确定性,信息熵很小;抛硬时正面还是背面朝上不确定,信息熵很大。

  • 有可加性, 独立随机事件联合分布的熵等于各自熵的和。

  • 单个小概率事件的信息熵(即其携带的信息量)远大于单个大概率事件。

信息增益

分类后信息熵减少的量,减少的不确定性

  • 使用场景:ID3决策树分类

  • 计算:分类前集合的熵-分类后各子集熵的加权均值

GXa=H(x)XsubXH(Xsub)G(X,a)=H(x)-\sum \frac{|X_{sub}|}{|X|}H(X_{sub})

Xsub|X_{sub}|表示根据特征a分类后各个子集元素个数,X|X|表示分类前集合个数

  • 特点:对小概率类别敏感

  • 局限:倾向于根据属性值种类多的分类,易造成过拟合;

信息增益率

给信息增益加惩罚项,降低属性种类多的权重

  • 定义
信息增益率=信息增益分裂程度 信息增益率=\frac{信息增益}{分裂程度}。
  • 分裂程度本质为分类后各子类分布的熵
分裂程度=DsubDlogDsubD分裂程度=-\sum\frac{|D_{sub}|}{|D|}log\frac{|D_{sub}|}{|D|}
  • 使用场景: C4.5决策树

基尼系数

  • 定义:1减去各子类概率平方只和。
Gini(X)=1xXP(x)2Gini(X)=1-\sum_{x \in X}P(x)^2
  • 使用场景:cart算法
  • 对高频类别敏感
  • 倾向于均衡分裂

交叉熵

用一个分布来度量另一个分布,两个分布差别越小,交叉熵越小,

  • 使用场景:用于神经网络反向传播训练参数。

相对熵(KL散度)

  • 不对称

A&Q

一定发生的事信息熵为0,那一定不发生的事信息熵最大吗?

  • 不可能事件一定不发生,其熵为0。
  • “不可能事件”无信息量:信息量的本质是“事件发生时消除的不确定性”。而不可能发生的事件(如“太阳从西方永久升起”)永远不会发生,既不存在“发生”的可能,也无法消除任何现实中的不确定性,因此讨论其信息量无实际意义。

描述得非常肯定的事件的信息熵一定小

  • 错,如“今年夏天一定下雪”这句话是非常肯定的描述,但这事几乎不会发生,如果这事真的发生了,那其包含的信息熵很大。

求熵只能用loglog函数吗

log函数满足熵的可加性,其他函数一般不具备这种性质。 并且熵计算一般使用log2log_2,因为便于计算