本文已参与「新人创作礼」活动，一起开启掘金创作之路。

4.1 基本流程

概念

基于树结构进行决策。是在上一步决策结构的限定范围内再去判断下一个条件。

决策树组成

在这里插入图片描述

内部结点(internal node)：表示一个特征或属性
叶结点(leaf node)：一个类别或某个值
三种情况会递归返回，说白了就是没法分了就返回

4.2 划分选择

4.2.1 信息增益

信息熵

自信息
I ( X ) = − l o g b P ( x ) I(X)=-log_b^{P(x)} I(X)=−logbP(x)

信息熵(自信息的期望)
X是一个取有限个解的离散随机变量，概率分布为：
P ( X = x i ) = p i , ( i = 1 , 2 , 3 , . . . , n ) P(X=x_i)=p_i,(i=1,2,3,...,n) P(X=xi)=pi,(i=1,2,3,...,n)
随机变量X的熵定义为：
H ( X ) = − ∑ i = 1 n p i − l o g p i H(X)=-\displaystyle\sum_{i=1}^{n}p_i-logp_i H(X)=−i=1∑npi−logpi
熵越大，随机变量的不确定性越大

信息增益

信息增益：特征A对训练数据集D的信息增益，g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：
在这里插入图片描述

互信息(mutual information)：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
机器学习中的信息增益等价于训练数据集中类与特征的互信息
信息增益越大，意味着使用该属性来进行划分所获得的 “纯度提升越大”

【机器学习笔记】第四章：决策树

目录

4.1 基本流程

概念

决策树组成

4.2 划分选择

4.2.1 信息增益

信息熵

信息增益