本文已参与「新人创作礼」活动,一起开启掘金创作之路。
目录
4.1 基本流程
概念
基于树结构进行决策。是在上一步决策结构的限定范围内再去判断下一个条件。
决策树组成
- 内部结点(internal node):表示一个特征或属性
- 叶结点(leaf node):一个类别或某个值
三种情况会递归返回,说白了就是没法分了就返回
4.2 划分选择
4.2.1 信息增益
信息熵
自信息
I ( X ) = − l o g b P ( x ) I(X)=-log_b^{P(x)} I(X)=−logbP(x)
信息熵(自信息的期望)
X是一个取有限个解的离散随机变量,概率分布为:
P ( X = x i ) = p i , ( i = 1 , 2 , 3 , . . . , n ) P(X=x_i)=p_i,(i=1,2,3,...,n) P(X=xi)=pi,(i=1,2,3,...,n)
随机变量X的熵定义为:
H ( X ) = − ∑ i = 1 n p i − l o g p i H(X)=-\displaystyle\sum_{i=1}^{n}p_i-logp_i H(X)=−i=1∑npi−logpi
熵越大,随机变量的不确定性越大
信息增益
信息增益:特征A对训练数据集D的信息增益,g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差:
- 互信息(mutual information):表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
- 机器学习中的信息增益等价于训练数据集中类与特征的互信息
- 信息增益越大,意味着使用该属性来进行划分所获得的 “纯度提升越大”