机器学习——决策树

81 阅读2分钟

概念

  • 物理学上,熵 Entropy 是“混乱”程度的量度
  • 系统越有序,熵值越低;系统越混乱或者分散,熵值越高

信息理论

  • 从信息的完整性上进行的描述:系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。

2、从信息的有序性上进行的描述:数据量一致时系统越有序,熵值越低;系统越混乱或者分散,熵值越高

决策树的划分依据————信息增益

信息增益: 以某特征划分数据集前后的熵的差值。使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏

信息增益 = entroy(前) - entroy(后)

集合D的信息熵Ent(D)给定特征a条件下D的信息条件熵

使用属性 a 来进行划分所获得的"纯度提升"越大

image.png

image.png

活跃度的信息增益比性别的信息增益大,也就是说,活跃度对用户流失的影响比性别大。 在做特征选择或者数据分析的时候,我们应该重点考察活跃度这个指标。

3 决策树的划分依据二----信息增益率

信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的 C4.5 决策树算法 [Quinlan, 1993J 不直接使用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性.

益率: 增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"的比值来共同定义的。

4 决策树的划分依据三 ----基尼值和基尼指数

基尼值Gini(D): 从数据集D中随机抽取两个样本,其类别标记不一致的概率。故,Gini(D)值越小,数据集D的纯度越高。

基尼指数Gini_index(D): 一般,选择使划分后基尼系数最小的属性作为最优化分属性。