推荐算法实践：电商特征选取推荐系统的特征工程是模型效果的核心，通常按用户、物品、上下文、交互行为、统计类、内容与语义、场

推荐系统的特征工程是模型效果的核心，通常按用户、物品、上下文、交互行为、统计类、内容与语义、场景与业务、交叉与组合八大维度划分。下面按类别完整列举，并说明为什么有效。

一、用户侧特征（User Features）

描述用户本身属性、偏好与行为历史，用于个性化匹配。

基础人口属性：
- 年龄、性别、职业、学历、地域、城市等级
- 注册时长、是否新用户
- 有效性：捕捉群体共性偏好，如年轻用户更爱短视频、女性更关注美妆。
设备信息
- 设备型号、品牌、操作系统、分辨率、网络类型（WiFi/4G/5G）
- 有效性：网络差更适合推短内容；高端机可推高清视频 / 游戏。
用户画像标签
- 显式标签：关注 / 收藏 / 点赞的类目、兴趣标签（如 “篮球”“旅行”）
- 隐式标签：通过行为聚类得到的偏好向量
- 有效性：直接刻画用户兴趣，是个性化推荐的基础。
用户行为序列
- 点击 / 浏览 / 收藏 / 加购 / 下单 / 分享 / 完播序列
- 序列时长、间隔、最近 N 步行为
- 有效性：序列蕴含时序偏好、兴趣漂移、上下文意图，适合 DIN/DIEN/Transformer 等序列模型。
用户活跃度与价值
- 日 / 周 / 月活跃天数、访问频次、平均使用时长
- 付费金额、付费频次、用户价值分层（高 / 中 / 低活、高价值）
- 有效性：高活用户可做深度探索，低活用户优先做召回与稳定体验。
用户社交特征
- 好友数、粉丝数、关注数、好友共同点击
- 有效性：利用社交信任，“朋友看过 / 买过” 提升点击率与转化率。

描述被推荐内容 / 商品本身，用于内容匹配与质量控制。

基础属性
- 类目、标签、品牌、价格、规格、发布时间、有效期
- 有效性：类目匹配是基础；价格敏感用户偏好低价 / 折扣品。
内容特征
- 文本：标题关键词、摘要、描述 TF-IDF/TextCNN/Embedding
- 图像：封面图特征、清晰度、主体检测
- 视频：时长、分辨率、帧率、封面、OCR 文本
- 有效性：将非结构化内容转为可计算向量，实现内容相似推荐。
质量与热度特征
- 播放 / 阅读 / 完播率、点赞 / 评论 / 分享、差评率
- 有效性：高完播、高互动代表内容质量好，更值得推荐。
时效性特征
- 新上架、热点、突发内容、节日相关
- 有效性：热点内容天然高需求，需提升权重做时效性分发。
物品 Embedding
- 由 Item2Vec、Graph Emb、多模态模型预训练得到
- 有效性：浓缩全局语义与结构信息，用于粗排精排。

描述推荐发生的环境，用于场景适配。

直接刻画用户对物品的偏好强度，是排序模型最有效特征之一。

历史交互统计
- 用户对该物品 / 类目 / 品牌的历史点击、收藏、购买次数
- 最近一次交互距今时间
- 有效性：直接反映真实偏好，“多次点击 = 强偏好”。
匹配度特征
- 用户兴趣向量与物品向量的余弦相似度 / 内积
- 用户标签与物品标签重合度、Jaccard 相似度
- 有效性：衡量 “用户兴趣与物品内容的匹配程度”。
交叉行为特征
- 同类目下点击未购买、加购未付款、收藏未点击
- 有效性：识别犹豫用户，可推优惠券、相似款促进转化。

从全局数据统计得到，用于校准与泛化。

用于内容理解与泛化推荐，解决长尾与冷启动。

文本语义 Embedding
- Word2Vec、BERT、Sentence-BERT 得到标题 / 描述向量
- 有效性：语义相似而非关键词匹配，提升泛化能力。
多模态特征
- 图像 CNN 特征、视频帧特征、音频特征
- 有效性：封面好看、内容精彩可独立预测点击率。
知识图谱特征
- 实体链接、属性关联、上下游关系、共现关系
- 有效性：利用先验知识做推理，如 “看过手机→推荐充电器”。

用于调控生态、健康度、多样性、成本。

单特征线性效果有限，交叉后往往效果暴涨，是传统模型与深度模型都极度依赖的增效特征。

常见交叉方式：

有效性：捕捉非线性关联，如 “一线城市女性在周末更爱买美妆”，单特征无法表达。