引言
- 本文继续介绍推荐系统研读笔记,紧接上篇文章介绍过的逻辑回归-融合多种特征的推荐模型,本文将介绍其他的升级版的推荐模型
特征交叉的解决方法-PolY2,FM,FFM:
- 上文介绍到逻辑或规模性的劣势就包含无法进行交叉和特征筛选等操作,接下来就是关于可以交叉的特征模型
- 注:文中作者用著名的”辛普森悖论“来说明进行多维度特征交叉的重要性(反正就是很重要就对了,该悖论感兴趣自查)
1. poly2模型-特征交叉的开始
- poly2特征交叉十分暴力,就是对特征进行两两组合然后赋予权重,本质上仍然是线性模型,一定程度上解决了特征组合的问题,但是缺点也十分明显
- 在互联网数据处理时候,需要经常使用热独编码来处理类别形的数据,导致特征向量极度稀疏,那么poly2无差别的特征交叉就会让特征向量更加稀疏,导致大部分交叉特征的权重缺乏有效的数据进行训练,从而导致无法收敛(还有特征爆炸的情况); 而且权重参数的量成平方增加,大大加重了训练复杂度
- 个人是因为先看到的FM和FFM模型再去看的poly2模型,所以感觉比较麻烦并未使用,可以参考下方我写的FM和FFM的介绍
2. FM,FFM模型的引入
- FM 隐向量特征交叉
- FFM 引入特征域的概念
- 因总结过FM,FFM的相关解读,此处不做详解 FM&FFM理解(初版) - 知乎 (zhihu.com)
- FM家族的弊端:理论中FM模型利用交叉的思路可以引申到三阶特征交叉甚至更高,但是由于组合特征爆炸的问题限制,三阶的FM无论是权重数量还是训练复杂度都过高,难以在工程中实现。因此为了突破二阶特征交叉的限制,进一步加强模型特征组合的能力,就成了推荐模型发展的方向,比如接下来介绍的特征工程模型化(组合模型)在一定程度上解决了高阶特征交叉的问题
3. 作者有些图比较形象,作为注解部分
-
关于poly2:
-
FM
- FFM
结尾
- 接下来的模型就是组合模型,开始偏向于深度学习的雏形了,敬请期待哦