**
**
决策树
定义:决策树可以被看作是一种用于做决策的图形模型,就像是一棵倒过来的树。在这棵树中,每个节点代表一个问题或一个决策,每个分支代表一个可能的答案或决策的方向,而每个叶子节点代表一个最终的结果或决策。决策树中的每个节点通常对应于一个特征或属性,用于做出决策。这些节点被用来提出问题或测试数据的某些属性,然后根据答案或属性的值,决定在树中的哪个分支继续前进。
ID3定义:是一种经典的决策树学习算法,用于构建分类决策树模型。ID3 的目标是从数据中学习一个问题的决策树,以便能够对新的数据进行分类。决策树是一个树状结构,其中每个节点表示一个问题或特征,每个分支代表一个可能的答案或特征的取值,而每个叶子节点代表最终的分类结果。
ID3 的工作原理:
选择最佳特征:ID3 从数据集中选择一个特征,该特征应该是能够最好地将数据集分成不同的类别或子集的特征。
划分数据:基于所选的特征,ID3 将数据集划分成不同的子集,每个子集都对应于该特征的一个取值或答案。
递归构建树:对每个子集,ID3 递归地重复上述步骤,选择最佳特征并继续划分数据,直到达到某个停止条件(例如,子集中的数据属于同一类别或树的深度达到预定值)。
创建决策树:ID3 继续构建树,直到将所有数据分为可以明确分类的叶子节点。
树的剪枝:为了避免过拟合(过于复杂的模型),ID3 可能会对树进行剪枝,即去掉某些分支或节点,以简化树的结构。
信息熵:熵越大,不确定性越大。可以由信息熵计算信息增益。
信息增益:信息增益告诉我们选择哪个特征能够最大程度地提高数据分类的准确性,因为它能够最有效地降低数据的不确定性。在构建决策树时,通常会计算每个特征的信息增益,然后选择具有最高信息增益的特征来进行划分。这样,决策树在每个节点上都选择了最能够降低不确定性的特征,从而帮助进行有效的分类或预测。