一．算法描述

C4.5算法基本思想：

1. 计算类别信息熵

类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据信息熵的概念，熵越大，不确定性就越大，把事情搞清楚所需要的信息量就越多。

2. 计算每个属性的条件熵

每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下，各种类别出现的不确定性之和。属性的信息熵越大，表示这个属性中拥有的样本类别越复杂。

3. 计算增益

信息增益的 = 类别信息熵 - 属性条件熵，它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大，就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性，当然，选择该属性就可以更快更好地完成我们的分类目标。

4.计算属性分裂信息度量

用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息，我们把这些信息称为属性的内在信息。计算流程等同于计算类别信息熵。

5.计算信息增益率

信息增益率=信息增益 / 分裂信息度量 ，这样会使属性的重要性随着内在信息的增大而减小（也就是说，如果这个属性本身不确定性就很大，那我就越不倾向于选取它），这样算是对单纯用信息增益有所补偿。

while (当前节点未到达叶子节点)  

(1)计算当前节点的类别信息熵Info(D) （以类别取值计算）  

(2)计算当前节点各个属性的信息熵Info(Ai) （以属性取值下的类别取值计算）  

(3)计算各个属性的信息增益Gain(Ai)=Info(D)-Info(Ai)  

(4)计算各个属性的分类信息度量H(Ai) （以属性取值计算）  

(5)计算各个属性的信息增益率IGR(Ai)=Gain(Ai)/H(Ai)  

end while

当前节点设置为叶子节点