04 组合特征

209 阅读2分钟

场景描述

上一节介绍了如何利用降维方法来减少两个高维特征组合后需要学习的参数。但是在很多实际问题中,我们常常需要面对多种高维特征。如果简单地两两组合,依然容易存在参数过多、过拟合等问题,而且并不是所有的特征组合都是有意义的,因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组合。

知识点

组合特征

问题 怎样有效地找到组合特征?

分析与解答

本节介绍一种基于决策树的特征组合寻找方法(关于决策树的详细内容可见第3章第3节)。以点击预测问题为例,假设原始输入包含年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等)4个方面的信息,并且根据原始输入和标签(点击/未点击)构造出了决策树,如图1.2所示。

image.png 于是,每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。具体来说,就有以下4种特征组合的方式。

(1)“年龄<=35”且“性别=女”。

(2)“年龄<=35”且“物品类别=护肤”。

(3)“用户类型=付费”且“物品类型=食品”。

(4)“用户类型=付费”且“年龄<=40”。 表1.6是两个样本信息,那么第1个样本按照上述4个特征组合就可以编码为(1,1,0,0),因为同时满足(1)(2),但不满足(3)(4)。同理,第2个样本可以编码为(0,0,1,1),因为它同时满足(3)(4),但不满足(1)(2)。

image.png 给定原始输入该如何有效地构造决策树呢?可以采用梯度提升决策树,该方法的思想是每次都在之前构造的决策树的残差上构建下一棵决策树。对梯度提升决策树感兴趣的读者可以参考第12章的具体内容。