在推荐类 AI 产品越来越普及的今天,评测(Evaluation)已经成为模型优化与产品体验提升的关键一环。 以 礼物雷达 DeepGift 为例,我们希望让 AI 理解「送礼这件事」本身的语义复杂度: 不仅是匹配标签和兴趣,更是理解情绪、关系、预算、场景之间的微妙平衡。
这篇文章分享我们在构建 DeepGift 评测体系时的一些思考与技术实践(现可通过微信小程序体验),适合正在研发 推荐类、个性化类或 AI 生成类产品 的团队参考。
一、为什么推荐类AI更难评测?
传统推荐系统的评测指标(如点击率CTR、转化率CVR、Top-K准确率等)往往建立在用户行为数据上。 但在 AI 生成式推荐中,例如 DeepGift 的「AI礼物建议」,结果不再是一个固定商品集合,而是一段语言化的智能推荐:
“她最近加班多,这款薰衣机可以帮她缓解压力,还能定制香味。”
这样的结果既包含了推荐,又融合了情感与解释。
因此,我们无法仅依赖准确率、召回率等指标,而需要评估以下几个维度:
-
相关性(Relevance) :推荐结果是否符合用户意图?
-
多样性(Diversity) :是否避免重复推荐?是否能体现个性差异?
-
解释性(Interpretability) :推荐理由是否自然、有说服力?
-
情绪价值(Affective Value) :语言是否能引发共鸣?
-
商业合理性(Business Fit ) :是否符合价格区间、节日场景等商业约束?
二、DeepGift的AI评测体系框架
DeepGift 使用了一个分层的评测体系,将自动化指标与人工标注相结合。
- 结构化评分框架
| 维度 | 定义 | 示例 |
|---|---|---|
| 意图匹配度 | 模型理解用户需求的准确度 | “适合30岁女性生日礼物”是否匹配意图 |
| 创意与多样性 | 结果是否过度模板化或重复 | 推荐是否都集中在同类商品 |
| 情感共鸣度 | 推荐语是否能触动用户情绪 | “温柔地照顾她的晚安时刻” |
| 解释合理性 | 推荐理由是否与商品属性一致 | 不出现“香薰提升记忆力”此类错误 |
| 约束合规性 | 是否符合品牌、节日、预算约束 | 不推荐超预算商品或已下架商品 |
每条推荐都会生成一份5维度的评分矩阵,自动评分 + 人工抽检双验证。
三、AI辅助的自动化评测
我们基于 LLM-Based Evaluator 思路,使用多模型互评机制:
- 主模型生成推荐结果(如 GPT-4/DeepSeek 等)
- 评测模型独立读取指令与输出,根据维度标准生成打分和理由
- 定期抽样交叉验证一致性(Cohen’s Kappa > 0.75)
这类自动评测在 DeepGift 内部迭代中,将人工标注成本降低了约 60% ,并让我们能在每次模型更新后快速回归评估结果。
四、真实用户数据与A/B实验结合
为了验证模型评测指标与真实用户行为的关联,DeepGift 在上线后持续进行 A/B 实验:
- 版本A:高解释性模型(强化推荐理由)
- 版本B:高匹配性模型(优化商品精准度)
结果显示:
用户停留时长与点击深度在版本A中分别提升了 18% 和 23% 。 说明在送礼场景中,「推荐解释」比「推荐准确」更能打动用户。
这也帮助我们在模型优化中确定权重: 情感 > 匹配 > 多样性 > 商业逻辑。
五、评测的下一步:共创与反馈循环
我们正在尝试让用户参与评测闭环,通过以下方式持续优化:
- 用户反馈的自然语言转化为「反向标注」
- 通过模型微调自动吸收偏好变化
- 动态调整评测集分布,让样本更贴近实时节日热点(如情人节、双十一)
最终目标是让评测系统像产品本身一样——持续学习、不断演化。
六、结语
推荐类 AI 产品的评测,不只是算法工程问题,更是一种“理解人”的能力。 DeepGift 礼物雷达希望通过技术手段,构建出既懂算法也懂心意的评测体系。 让每一次推荐,都更贴近一个人真正的情感需求。