机器学习之分类决策树

139 阅读2分钟

分类决策树

决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。 在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。 用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直到到达叶节点,最后将实例分到叶节点的类中。 下图为决策树示意图,圆点——内部节点,方框——叶节点

图片.png

• 决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。

• 决策树学习的本质:从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型。

• 决策树学习的损失函数:正则化的极大似然函数 • 决策树学习的测试:最小化损失函数 • 决策树学习的目标:在损失函数的意义下,选择最优决策树的问题。 • 决策树原理和问答猜测结果游戏相似,根据一系列数据,然后给出游戏的答案。

决策树的构造

决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。 1) 开始:构建根节点,将所有训练数据都放在根节点,选择一个最优特征,按着这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。 2) 如果这些子集已经能够被基本正确分类,那么构建叶节点,并将这些子集分到所对应的叶节点去。 3)如果还有子集不能够被正确的分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的节点,如果递归进行,直至所有训练数据子集被基本正确的分类,或者没有合适的特征为止。 4)每个子集都被分到叶节点上,即都有了明确的类,这样就生成了一颗决策树。

参考:blog.csdn.net/u012351768/…