人工智能-其他分类技术-决策树

961 阅读3分钟

先看一个决策树的模型

image.png

很明显这是一个看工作简历招人的决策树模型

我们可以看出来,它首先是一个树

其次他是一个由多层判断构成的决策树

我们来分析一下这个问题,首先我们假设这是一个前端开发工程师的简历筛选模型

首先,我们假设这是一个后端大佬,自学过前端,而且前端业务能力很强,技能里写了有前端后端的技能,但是就是没有实际的前端开发的工作的经验,自己有一个花里胡哨炫酷的不行的博客。

看这个树就会在专业技能的时候给通过,在有无经验的时候给否,然后就否决掉这个简历了。但是呢,在真实的情况,如果这个人的期望工资,公司要求的硬性学历都在合适的范围内,可能公司会给这个人一个面试的机会。

所以我们就有了第一个问题,这个决策树,是不是要控制一下不能一票否决。

然后再假设这是一个很厉害的搞人工智能的工程师,他的简历来到了这个前端工程师的模型里。

他的技能,有前端,后端,人工智能,爬虫,啥都有就非常的强。然后呢但是他根本就不想做前端工程师,他的求职意向是服装设计。但是这个模型就会往下看看到最后发现非常的合适,就给他发面试邀约了,结果人家就不去了。

这里就是第二个问题,树结构是不是要加一个判断求职意向的特征指标,那这个特征指标放哪呢,放第一,为什么放第一。因为他很重要,这个不合适,就不可能合适。

现在就有两个问题了

是不是会有个多分支的决策树?

决策树的判断顺序到底有多重要?

我们就带着这两个问题往下看

ID3

ID3是什么呢,他是一个利用信息熵原理选择信息增益最大的属性作为分类属性,一次决定决策树的分支,完成决策树的构造

信息熵

诶,是不是看到这个词就蒙了

先说说熵,不就是用来描述一个混沌的程度吗

那信息熵,就是用来度量这个数据如果随机选取对模型不确定性影响的指标。

下面贴一个概念和公式

image.png

信息增益

image.png

举个实例

假设我们有这么一个员工简历匹配表

image.png

先算一下信息熵

image.png

再根据经验算一下信息增益

image.png

再根据其他算一下对应的信息增益

image.png

最后算完,就发现先判断薪资是最合适的

自己的总结

就是这个模型,要拿到这个决策树的模型先做哪个判断,我们用程序的角度说,就是要让他做最少的判断。那么我们首先看最后得出的结果有多少种。比如这个模型,最后的结果就只有通过和不通过两种结果。而根据数据,就知道投简历的人里,大多数都是水平,学历,技能都匹配的,但是就是工资不匹配,所以模型先判断工资和不适合最优。