为什么要做这件事情
- 内容化的重要业务价值
- 达人内容生成覆盖商品少、成本高
- 技术积累。 千万级达人训练数据、完善的知识图谱数据、商品理解能力和NLP领域的深度学习相关知识储备。
整体方案综述
- 输入 素材库的 item topics 基于知识图谱的内容理解分析的达人内容的target topic
- 输出
达人内容 商家卖点设计
- 静态信息和动态信息。
- 静态: 商品基础元素 品牌 款式 风格
- 动态: 促销活动、上新、评价、搭配
- 训练数据 我们通过官方渠道背书和优质达人的数据扩展训练数据。
官方渠道:有好货、极有家、淘宝头条、手淘行业其他卡片、清单商品推荐理由等。
优质达人:实际上,很多达人是不停在平台生成内容的,但生产的内容中很多并没有被官方渠道选中,也或许他们生产内容的动力不仅在于投稿也在于粉丝关注,我们根据达人的粉丝、历史招投稿信息等圈中了优质达人,把这些达人每天的单品推荐理由内容设置为候选集。这些数据的增量还是非常可观的,贡献了约一半的训练数据量。
- 训练数据质量 事实上,原始训练数据的质量远没有那么理想,除了一些语法错误外,有很多推荐理由甚至是商品原始标题,特别是优质达人来源数据质量更是非常低。因此这个部分我们开发了比较系统化的插件式的Evaluator模型,用于处理和过滤训练数据,主要包括预处理和判别模块。
- 预处理:基础的繁简转换、大小写归一之外,对语法或冗余字符也做了过滤处理。
- 判别:判别模块我们主要解决堆砌重复问题、badPattern、低置信语法和标点规范等维度问题。 最终我们使用的有效可用的推荐理由训练数据量超过1600w,基本已经达到了目前淘宝平台可用训练数据的极限。
开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 26 天,点击查看活动详情