信息量(自信息)
描述随机事件的不确定性。观测到随机事件发生后对不确定性的减少值。
信息熵
用来描述样本空间系统整体不确定性,用信息量的期望表示
-
系统不确定性越大,信息熵越大,比如“太阳每天升起方位”随机事件只有“从东方升起”一种情况,没有任何不确定性,信息熵很小;抛硬时正面还是背面朝上不确定,信息熵很大。
-
有可加性, 独立随机事件联合分布的熵等于各自熵的和。
-
单个小概率事件的信息熵(即其携带的信息量)远大于单个大概率事件。
信息增益
分类后信息熵减少的量,减少的不确定性
-
使用场景:ID3决策树分类
-
计算:分类前集合的熵-分类后各子集熵的加权均值
表示根据特征a分类后各个子集元素个数,表示分类前集合个数
-
特点:对小概率类别敏感
-
局限:倾向于根据属性值种类多的分类,易造成过拟合;
信息增益率
给信息增益加惩罚项,降低属性种类多的权重
- 定义
- 分裂程度本质为分类后各子类分布的熵
- 使用场景: C4.5决策树
基尼系数
- 定义:1减去各子类概率平方只和。
- 使用场景:cart算法
- 对高频类别敏感
- 倾向于均衡分裂
交叉熵
用一个分布来度量另一个分布,两个分布差别越小,交叉熵越小,
- 使用场景:用于神经网络反向传播训练参数。
相对熵(KL散度)
- 不对称
A&Q
一定发生的事信息熵为0,那一定不发生的事信息熵最大吗?
- 不可能事件一定不发生,其熵为0。
- “不可能事件”无信息量:信息量的本质是“事件发生时消除的不确定性”。而不可能发生的事件(如“太阳从西方永久升起”)永远不会发生,既不存在“发生”的可能,也无法消除任何现实中的不确定性,因此讨论其信息量无实际意义。
描述得非常肯定的事件的信息熵一定小
- 错,如“今年夏天一定下雪”这句话是非常肯定的描述,但这事几乎不会发生,如果这事真的发生了,那其包含的信息熵很大。
求熵只能用函数吗
log函数满足熵的可加性,其他函数一般不具备这种性质。 并且熵计算一般使用,因为便于计算