开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第8天，点击查看活动详情

一、决策树简介

决策树是一种对实例进行分类的树形结构，通过多层判断区分目标所属类别。它的本质就是通过多层判断，从训练数据集中归纳出一组分类规则，换句话说，决策树有点像游戏中的科技树/技能树，通过一个个if-else的判断来对最终科技和技能进行归纳。

决策树的优点是计算量小，运算速度快；同时通过一个个易于理解的选择判断，可以非常清晰的查看各个属性的重要性。

决策树的缺点是忽略了属性之间的相关性，一旦选择了某个分支就难以回到之前的分支了，哪怕这些分支存在一定的关联；其次如果样本数据集类别分布不均匀的时候，就很容易影响到模型的表现。

二、逻辑回归与决策树

逻辑回归解决问题的方法就是根据每一个因素加上对应的权重形成一个多项式函数，比较依赖损失函数的多次迭代。而决策树是采用类似if-else的判断，无需进行多次的损失函数迭代和搜索，这样子的计算量就会小很多。

其实决策树的求解方法并不单一，主要有ID3、C4.5、CART三种，其中最重要的是ID3。

ID3其实就是利用信息熵原理选择信息增益最大的属性作为分类属性，递归地拓展决策树的分支，最终完成决策树的构造。

那么其中的关键就是信息熵了，信息熵作为度量随机变量不确定性的指标，熵越大则变量的不确定性就越大。而信息增益就是通过原本的信息熵减去分类后形成的信息熵，一般尽可能小是最好的。