从推荐到理解:DeepGift 礼物雷达的AI评测体系构建实践

58 阅读4分钟

在推荐类 AI 产品越来越普及的今天,评测(Evaluation)已经成为模型优化与产品体验提升的关键一环。 以 礼物雷达 DeepGift 为例,我们希望让 AI 理解「送礼这件事」本身的语义复杂度: 不仅是匹配标签和兴趣,更是理解情绪、关系、预算、场景之间的微妙平衡。

这篇文章分享我们在构建 DeepGift 评测体系时的一些思考与技术实践(现可通过微信小程序体验),适合正在研发 推荐类、个性化类或 AI 生成类产品 的团队参考。

gh_ea83d062d19f_1280.jpg

一、为什么推荐类AI更难评测?

传统推荐系统的评测指标(如点击率CTR、转化率CVR、Top-K准确率等)往往建立在用户行为数据上。 但在 AI 生成式推荐中,例如 DeepGift 的「AI礼物建议」,结果不再是一个固定商品集合,而是一段语言化的智能推荐

“她最近加班多,这款薰衣机可以帮她缓解压力,还能定制香味。”

这样的结果既包含了推荐,又融合了情感与解释。

因此,我们无法仅依赖准确率、召回率等指标,而需要评估以下几个维度:

  • 相关性(Relevance) :推荐结果是否符合用户意图?

  • 多样性(Diversity) :是否避免重复推荐?是否能体现个性差异?

  • 解释性(Interpretability) :推荐理由是否自然、有说服力?

  • 情绪价值(Affective Value) :语言是否能引发共鸣?

  • 商业合理性(Business Fit :是否符合价格区间、节日场景等商业约束?

二、DeepGift的AI评测体系框架

DeepGift 使用了一个分层的评测体系,将自动化指标与人工标注相结合。

  1. 结构化评分框架
维度定义示例
意图匹配度模型理解用户需求的准确度“适合30岁女性生日礼物”是否匹配意图
创意与多样性结果是否过度模板化或重复推荐是否都集中在同类商品
情感共鸣度推荐语是否能触动用户情绪“温柔地照顾她的晚安时刻”
解释合理性推荐理由是否与商品属性一致不出现“香薰提升记忆力”此类错误
约束合规性是否符合品牌、节日、预算约束不推荐超预算商品或已下架商品

每条推荐都会生成一份5维度的评分矩阵,自动评分 + 人工抽检双验证。

三、AI辅助的自动化评测

我们基于 LLM-Based Evaluator 思路,使用多模型互评机制:

  1. 主模型生成推荐结果(如 GPT-4/DeepSeek 等)
  2. 评测模型独立读取指令与输出,根据维度标准生成打分和理由
  3. 定期抽样交叉验证一致性(Cohen’s Kappa > 0.75)

这类自动评测在 DeepGift 内部迭代中,将人工标注成本降低了约 60% ,并让我们能在每次模型更新后快速回归评估结果。

四、真实用户数据与A/B实验结合

为了验证模型评测指标与真实用户行为的关联,DeepGift 在上线后持续进行 A/B 实验:

  • 版本A:高解释性模型(强化推荐理由)
  • 版本B:高匹配性模型(优化商品精准度)

结果显示:

用户停留时长与点击深度在版本A中分别提升了 18% 和 23% 。 说明在送礼场景中,「推荐解释」比「推荐准确」更能打动用户。

这也帮助我们在模型优化中确定权重: 情感 > 匹配 > 多样性 > 商业逻辑

五、评测的下一步:共创与反馈循环

我们正在尝试让用户参与评测闭环,通过以下方式持续优化:

  • 用户反馈的自然语言转化为「反向标注」
  • 通过模型微调自动吸收偏好变化
  • 动态调整评测集分布,让样本更贴近实时节日热点(如情人节、双十一)

最终目标是让评测系统像产品本身一样——持续学习、不断演化

六、结语

推荐类 AI 产品的评测,不只是算法工程问题,更是一种“理解人”的能力。 DeepGift 礼物雷达希望通过技术手段,构建出既懂算法也懂心意的评测体系。 让每一次推荐,都更贴近一个人真正的情感需求。

gh_ea83d062d19f_1280.jpg