智能内容生成

123 阅读2分钟

为什么要做这件事情

  • 内容化的重要业务价值
  • 达人内容生成覆盖商品少、成本高
  • 技术积累。 千万级达人训练数据、完善的知识图谱数据、商品理解能力和NLP领域的深度学习相关知识储备。

整体方案综述

飞书20230226-214052.png

  • 输入 素材库的 item topics 基于知识图谱的内容理解分析的达人内容的target topic
  • 输出 达人内容 商家卖点设计
    • 静态信息和动态信息。
    • 静态: 商品基础元素 品牌 款式 风格
    • 动态: 促销活动、上新、评价、搭配
  • 训练数据 我们通过官方渠道背书和优质达人的数据扩展训练数据。

官方渠道:有好货、极有家、淘宝头条、手淘行业其他卡片、清单商品推荐理由等。

优质达人:实际上,很多达人是不停在平台生成内容的,但生产的内容中很多并没有被官方渠道选中,也或许他们生产内容的动力不仅在于投稿也在于粉丝关注,我们根据达人的粉丝、历史招投稿信息等圈中了优质达人,把这些达人每天的单品推荐理由内容设置为候选集。这些数据的增量还是非常可观的,贡献了约一半的训练数据量。

  • 训练数据质量 事实上,原始训练数据的质量远没有那么理想,除了一些语法错误外,有很多推荐理由甚至是商品原始标题,特别是优质达人来源数据质量更是非常低。因此这个部分我们开发了比较系统化的插件式的Evaluator模型,用于处理和过滤训练数据,主要包括预处理和判别模块。
  • 预处理:基础的繁简转换、大小写归一之外,对语法或冗余字符也做了过滤处理。
  • 判别:判别模块我们主要解决堆砌重复问题、badPattern、低置信语法和标点规范等维度问题。 最终我们使用的有效可用的推荐理由训练数据量超过1600w,基本已经达到了目前淘宝平台可用训练数据的极限。

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 26 天,点击查看活动详情