人工智能-其他分类技术-决策树先看一个决策树的模型很明显这是一个看工作简历招人的决策树模型我们可以看出来，它首先是一

先看一个决策树的模型

很明显这是一个看工作简历招人的决策树模型

我们可以看出来，它首先是一个树

其次他是一个由多层判断构成的决策树

我们来分析一下这个问题，首先我们假设这是一个前端开发工程师的简历筛选模型

首先，我们假设这是一个后端大佬，自学过前端，而且前端业务能力很强，技能里写了有前端后端的技能，但是就是没有实际的前端开发的工作的经验，自己有一个花里胡哨炫酷的不行的博客。

看这个树就会在专业技能的时候给通过，在有无经验的时候给否，然后就否决掉这个简历了。但是呢，在真实的情况，如果这个人的期望工资，公司要求的硬性学历都在合适的范围内，可能公司会给这个人一个面试的机会。

所以我们就有了第一个问题，这个决策树，是不是要控制一下不能一票否决。

然后再假设这是一个很厉害的搞人工智能的工程师，他的简历来到了这个前端工程师的模型里。

他的技能，有前端，后端，人工智能，爬虫，啥都有就非常的强。然后呢但是他根本就不想做前端工程师，他的求职意向是服装设计。但是这个模型就会往下看看到最后发现非常的合适，就给他发面试邀约了，结果人家就不去了。

这里就是第二个问题，树结构是不是要加一个判断求职意向的特征指标，那这个特征指标放哪呢，放第一，为什么放第一。因为他很重要，这个不合适，就不可能合适。

现在就有两个问题了

是不是会有个多分支的决策树？

决策树的判断顺序到底有多重要？

我们就带着这两个问题往下看

ID3

ID3是什么呢，他是一个利用信息熵原理选择信息增益最大的属性作为分类属性，一次决定决策树的分支，完成决策树的构造

信息熵

诶，是不是看到这个词就蒙了

先说说熵，不就是用来描述一个混沌的程度吗

那信息熵，就是用来度量这个数据如果随机选取对模型不确定性影响的指标。

下面贴一个概念和公式

信息增益

举个实例

假设我们有这么一个员工简历匹配表

先算一下信息熵

再根据经验算一下信息增益

再根据其他算一下对应的信息增益

最后算完，就发现先判断薪资是最合适的

自己的总结

就是这个模型，要拿到这个决策树的模型先做哪个判断，我们用程序的角度说，就是要让他做最少的判断。那么我们首先看最后得出的结果有多少种。比如这个模型，最后的结果就只有通过和不通过两种结果。而根据数据，就知道投简历的人里，大多数都是水平，学历，技能都匹配的，但是就是工资不匹配，所以模型先判断工资和不适合最优。