推荐系统的特征工程是模型效果的核心,通常按用户、物品、上下文、交互行为、统计类、内容与语义、场景与业务、交叉与组合八大维度划分。下面按类别完整列举,并说明为什么有效。
一、用户侧特征(User Features)
描述用户本身属性、偏好与行为历史,用于个性化匹配。
-
基础人口属性:
- 年龄、性别、职业、学历、地域、城市等级
- 注册时长、是否新用户
- 有效性:捕捉群体共性偏好,如年轻用户更爱短视频、女性更关注美妆。
-
设备信息
- 设备型号、品牌、操作系统、分辨率、网络类型(WiFi/4G/5G)
- 有效性:网络差更适合推短内容;高端机可推高清视频 / 游戏。
-
用户画像标签
- 显式标签:关注 / 收藏 / 点赞的类目、兴趣标签(如 “篮球”“旅行”)
- 隐式标签:通过行为聚类得到的偏好向量
- 有效性:直接刻画用户兴趣,是个性化推荐的基础。
-
用户行为序列
- 点击 / 浏览 / 收藏 / 加购 / 下单 / 分享 / 完播序列
- 序列时长、间隔、最近 N 步行为
- 有效性:序列蕴含时序偏好、兴趣漂移、上下文意图,适合 DIN/DIEN/Transformer 等序列模型。
-
用户活跃度与价值
- 日 / 周 / 月活跃天数、访问频次、平均使用时长
- 付费金额、付费频次、用户价值分层(高 / 中 / 低活、高价值)
- 有效性:高活用户可做深度探索,低活用户优先做召回与稳定体验。
-
用户社交特征
- 好友数、粉丝数、关注数、好友共同点击
- 有效性:利用社交信任,“朋友看过 / 买过” 提升点击率与转化率。
二、物品侧特征(Item Features)
描述被推荐内容 / 商品本身,用于内容匹配与质量控制。
-
基础属性
- 类目、标签、品牌、价格、规格、发布时间、有效期
- 有效性:类目匹配是基础;价格敏感用户偏好低价 / 折扣品。
-
内容特征
- 文本:标题关键词、摘要、描述 TF-IDF/TextCNN/Embedding
- 图像:封面图特征、清晰度、主体检测
- 视频:时长、分辨率、帧率、封面、OCR 文本
- 有效性:将非结构化内容转为可计算向量,实现内容相似推荐。
-
质量与热度特征
- 播放 / 阅读 / 完播率、点赞 / 评论 / 分享、差评率
- 有效性:高完播、高互动代表内容质量好,更值得推荐。
-
时效性特征
- 新上架、热点、突发内容、节日相关
- 有效性:热点内容天然高需求,需提升权重做时效性分发。
-
物品 Embedding
- 由 Item2Vec、Graph Emb、多模态模型预训练得到
- 有效性:浓缩全局语义与结构信息,用于粗排精排。
三、上下文 / 场景特征(Context Features)
描述推荐发生的环境,用于场景适配。
-
时间特征
- 小时、工作日 / 周末、节假日、季节
- 有效性:早间新闻、中午短视频、晚间电商 / 长视频,意图差异极大。
-
位置特征
- 省市、商圈、经纬度、是否异地
- 有效性:本地生活、外卖、同城内容强依赖位置。
-
场景入口
- 首页推荐、搜索结果页、详情页相关、购物车、个人中心
- 有效性:不同入口意图不同:搜索强意图、首页偏探索、详情页偏相似 / 互补。
-
页面与展示信息
- 位置序号(position bias)、展示样式、封面大小
- 有效性:位置越靠前点击率天然越高,模型必须学习或消除偏差。
四、用户 - 物品交互特征(Interaction Features)
直接刻画用户对物品的偏好强度,是排序模型最有效特征之一。
-
历史交互统计
- 用户对该物品 / 类目 / 品牌的历史点击、收藏、购买次数
- 最近一次交互距今时间
- 有效性:直接反映真实偏好,“多次点击 = 强偏好”。
-
匹配度特征
- 用户兴趣向量与物品向量的余弦相似度 / 内积
- 用户标签与物品标签重合度、Jaccard 相似度
- 有效性:衡量 “用户兴趣与物品内容的匹配程度”。
-
交叉行为特征
- 同类目下点击未购买、加购未付款、收藏未点击
- 有效性:识别犹豫用户,可推优惠券、相似款促进转化。
五、统计类 / 全局特征(Stat Features)
从全局数据统计得到,用于校准与泛化。
-
物品全局统计
- 全局 CTR、CVR、曝光量、点击量、互动率
- 有效性:热门物品天然更易被接受,提供基础置信度。
-
用户全局统计
- 用户平均 CTR、平均点击深度、偏好类目占比
- 有效性:区分 “随便点的用户” 与 “精准点击用户”。
-
分维度统计
- (用户年龄 × 类目)CTR、(地域 × 时段)转化率
- 有效性:细粒度统计捕捉局部规律,提升小样本场景精度。
-
平滑统计特征
- 加 1 平滑、贝叶斯平滑、指数衰减加权(近期行为权重更高)
- 有效性:解决冷启动与小样本统计不准问题。
六、内容与语义深度特征(Content/Semantic Features)
用于内容理解与泛化推荐,解决长尾与冷启动。
-
文本语义 Embedding
- Word2Vec、BERT、Sentence-BERT 得到标题 / 描述向量
- 有效性:语义相似而非关键词匹配,提升泛化能力。
-
多模态特征
- 图像 CNN 特征、视频帧特征、音频特征
- 有效性:封面好看、内容精彩可独立预测点击率。
-
知识图谱特征
- 实体链接、属性关联、上下游关系、共现关系
- 有效性:利用先验知识做推理,如 “看过手机→推荐充电器”。
七、业务与策略特征(Business/Strategy Features)
用于调控生态、健康度、多样性、成本。
-
商业化特征
- 是否广告、出价、预算剩余、广告质量分
- 有效性:自然推荐与广告混排时做流量分配与收益平衡。
-
多样性与去重特征
- 推荐列表类目分布、相似度方差、重复类目惩罚
- 有效性:避免过度同质化,提升用户体验与留存。
-
冷启动特征
- 新用户 / 新物品标记、探索权重、试探流量标记
- 有效性:给新内容适度探索流量,避免马太效应过强。
-
风控与合规特征
- 违规分数、敏感内容标记、地域限制、年龄限制
- 有效性:保证推荐安全合规,降低风险。
八、交叉特征与组合特征(Cross/Combination Features)
单特征线性效果有限,交叉后往往效果暴涨,是传统模型与深度模型都极度依赖的增效特征。
常见交叉方式:
- 用户性别 × 物品类目
- 用户年龄 × 价格区间
- 时段 × 类目
- 城市等级 × 品类
- 历史点击率 × 物品热度
有效性:捕捉非线性关联,如 “一线城市女性在周末更爱买美妆”,单特征无法表达。
九、为什么这些特征普遍有效(总结)
- 用户特征:定位人群偏好,实现个性化。
- 物品特征:刻画内容 / 商品本身,保证推荐质量。
- 上下文特征:适配场景意图,符合即时需求。
- 交互特征:直接反映真实偏好,是强信号。
- 统计特征:利用全局规律,稳定模型效果。
- 语义 / 多模态:解决冷启动与长尾,提升泛化。
- 业务特征:调控生态、收益、合规与多样性。
- 交叉特征:挖掘非线性模式,大幅提升预测精度。