推荐算法实践:电商特征选取

4 阅读7分钟

推荐系统的特征工程是模型效果的核心,通常按用户、物品、上下文、交互行为、统计类、内容与语义、场景与业务、交叉与组合八大维度划分。下面按类别完整列举,并说明为什么有效

一、用户侧特征(User Features)

描述用户本身属性、偏好与行为历史,用于个性化匹配

  1. 基础人口属性:

    • 年龄、性别、职业、学历、地域、城市等级
    • 注册时长、是否新用户
    • 有效性:捕捉群体共性偏好,如年轻用户更爱短视频、女性更关注美妆。
  2. 设备信息

    • 设备型号、品牌、操作系统、分辨率、网络类型(WiFi/4G/5G)
    • 有效性:网络差更适合推短内容;高端机可推高清视频 / 游戏。
  3. 用户画像标签

    • 显式标签:关注 / 收藏 / 点赞的类目、兴趣标签(如 “篮球”“旅行”)
    • 隐式标签:通过行为聚类得到的偏好向量
    • 有效性:直接刻画用户兴趣,是个性化推荐的基础。
  4. 用户行为序列

    • 点击 / 浏览 / 收藏 / 加购 / 下单 / 分享 / 完播序列
    • 序列时长、间隔、最近 N 步行为
    • 有效性:序列蕴含时序偏好、兴趣漂移、上下文意图,适合 DIN/DIEN/Transformer 等序列模型。
  5. 用户活跃度与价值

    • 日 / 周 / 月活跃天数、访问频次、平均使用时长
    • 付费金额、付费频次、用户价值分层(高 / 中 / 低活、高价值)
    • 有效性:高活用户可做深度探索,低活用户优先做召回与稳定体验。
  6. 用户社交特征

    • 好友数、粉丝数、关注数、好友共同点击
    • 有效性:利用社交信任,“朋友看过 / 买过” 提升点击率与转化率。

二、物品侧特征(Item Features)

描述被推荐内容 / 商品本身,用于内容匹配与质量控制

  1. 基础属性

    • 类目、标签、品牌、价格、规格、发布时间、有效期
    • 有效性:类目匹配是基础;价格敏感用户偏好低价 / 折扣品。
  2. 内容特征

    • 文本:标题关键词、摘要、描述 TF-IDF/TextCNN/Embedding
    • 图像:封面图特征、清晰度、主体检测
    • 视频:时长、分辨率、帧率、封面、OCR 文本
    • 有效性:将非结构化内容转为可计算向量,实现内容相似推荐。
  3. 质量与热度特征

    • 播放 / 阅读 / 完播率、点赞 / 评论 / 分享、差评率
    • 有效性:高完播、高互动代表内容质量好,更值得推荐。
  4. 时效性特征

    • 新上架、热点、突发内容、节日相关
    • 有效性:热点内容天然高需求,需提升权重做时效性分发。
  5. 物品 Embedding

    • 由 Item2Vec、Graph Emb、多模态模型预训练得到
    • 有效性:浓缩全局语义与结构信息,用于粗排精排。

三、上下文 / 场景特征(Context Features)

描述推荐发生的环境,用于场景适配

  1. 时间特征

    • 小时、工作日 / 周末、节假日、季节
    • 有效性:早间新闻、中午短视频、晚间电商 / 长视频,意图差异极大。
  2. 位置特征

    • 省市、商圈、经纬度、是否异地
    • 有效性:本地生活、外卖、同城内容强依赖位置。
  3. 场景入口

    • 首页推荐、搜索结果页、详情页相关、购物车、个人中心
    • 有效性:不同入口意图不同:搜索强意图、首页偏探索、详情页偏相似 / 互补。
  4. 页面与展示信息

    • 位置序号(position bias)、展示样式、封面大小
    • 有效性:位置越靠前点击率天然越高,模型必须学习或消除偏差。

四、用户 - 物品交互特征(Interaction Features)

直接刻画用户对物品的偏好强度,是排序模型最有效特征之一。

  1. 历史交互统计

    • 用户对该物品 / 类目 / 品牌的历史点击、收藏、购买次数
    • 最近一次交互距今时间
    • 有效性:直接反映真实偏好,“多次点击 = 强偏好”。
  2. 匹配度特征

    • 用户兴趣向量与物品向量的余弦相似度 / 内积
    • 用户标签与物品标签重合度、Jaccard 相似度
    • 有效性:衡量 “用户兴趣与物品内容的匹配程度”。
  3. 交叉行为特征

    • 同类目下点击未购买、加购未付款、收藏未点击
    • 有效性:识别犹豫用户,可推优惠券、相似款促进转化。

五、统计类 / 全局特征(Stat Features)

从全局数据统计得到,用于校准与泛化

  1. 物品全局统计

    • 全局 CTR、CVR、曝光量、点击量、互动率
    • 有效性:热门物品天然更易被接受,提供基础置信度。
  2. 用户全局统计

    • 用户平均 CTR、平均点击深度、偏好类目占比
    • 有效性:区分 “随便点的用户” 与 “精准点击用户”。
  3. 分维度统计

    • (用户年龄 × 类目)CTR、(地域 × 时段)转化率
    • 有效性:细粒度统计捕捉局部规律,提升小样本场景精度。
  4. 平滑统计特征

    • 加 1 平滑、贝叶斯平滑、指数衰减加权(近期行为权重更高)
    • 有效性:解决冷启动与小样本统计不准问题。

六、内容与语义深度特征(Content/Semantic Features)

用于内容理解与泛化推荐,解决长尾与冷启动。

  1. 文本语义 Embedding

    • Word2Vec、BERT、Sentence-BERT 得到标题 / 描述向量
    • 有效性:语义相似而非关键词匹配,提升泛化能力。
  2. 多模态特征

    • 图像 CNN 特征、视频帧特征、音频特征
    • 有效性:封面好看、内容精彩可独立预测点击率。
  3. 知识图谱特征

    • 实体链接、属性关联、上下游关系、共现关系
    • 有效性:利用先验知识做推理,如 “看过手机→推荐充电器”。

七、业务与策略特征(Business/Strategy Features)

用于调控生态、健康度、多样性、成本

  1. 商业化特征

    • 是否广告、出价、预算剩余、广告质量分
    • 有效性:自然推荐与广告混排时做流量分配与收益平衡。
  2. 多样性与去重特征

    • 推荐列表类目分布、相似度方差、重复类目惩罚
    • 有效性:避免过度同质化,提升用户体验与留存。
  3. 冷启动特征

    • 新用户 / 新物品标记、探索权重、试探流量标记
    • 有效性:给新内容适度探索流量,避免马太效应过强。
  4. 风控与合规特征

    • 违规分数、敏感内容标记、地域限制、年龄限制
    • 有效性:保证推荐安全合规,降低风险。

八、交叉特征与组合特征(Cross/Combination Features)

单特征线性效果有限,交叉后往往效果暴涨,是传统模型与深度模型都极度依赖的增效特征。

常见交叉方式:

  • 用户性别 × 物品类目
  • 用户年龄 × 价格区间
  • 时段 × 类目
  • 城市等级 × 品类
  • 历史点击率 × 物品热度

有效性:捕捉非线性关联,如 “一线城市女性在周末更爱买美妆”,单特征无法表达。


九、为什么这些特征普遍有效(总结)

  1. 用户特征:定位人群偏好,实现个性化。
  2. 物品特征:刻画内容 / 商品本身,保证推荐质量。
  3. 上下文特征:适配场景意图,符合即时需求。
  4. 交互特征:直接反映真实偏好,是强信号。
  5. 统计特征:利用全局规律,稳定模型效果。
  6. 语义 / 多模态:解决冷启动与长尾,提升泛化。
  7. 业务特征:调控生态、收益、合规与多样性。
  8. 交叉特征:挖掘非线性模式,大幅提升预测精度。