智能内容生成

2023-02-26 123 阅读2分钟

为什么要做这件事情

内容化的重要业务价值
达人内容生成覆盖商品少、成本高
技术积累。千万级达人训练数据、完善的知识图谱数据、商品理解能力和NLP领域的深度学习相关知识储备。

整体方案综述

飞书20230226-214052.png

输入素材库的 item topics 基于知识图谱的内容理解分析的达人内容的target topic
输出达人内容商家卖点设计
- 静态信息和动态信息。
- 静态：商品基础元素品牌款式风格
- 动态：促销活动、上新、评价、搭配
训练数据我们通过官方渠道背书和优质达人的数据扩展训练数据。

官方渠道：有好货、极有家、淘宝头条、手淘行业其他卡片、清单商品推荐理由等。

优质达人：实际上，很多达人是不停在平台生成内容的，但生产的内容中很多并没有被官方渠道选中，也或许他们生产内容的动力不仅在于投稿也在于粉丝关注，我们根据达人的粉丝、历史招投稿信息等圈中了优质达人，把这些达人每天的单品推荐理由内容设置为候选集。这些数据的增量还是非常可观的，贡献了约一半的训练数据量。

训练数据质量事实上，原始训练数据的质量远没有那么理想，除了一些语法错误外，有很多推荐理由甚至是商品原始标题，特别是优质达人来源数据质量更是非常低。因此这个部分我们开发了比较系统化的插件式的Evaluator模型，用于处理和过滤训练数据，主要包括预处理和判别模块。
预处理：基础的繁简转换、大小写归一之外，对语法或冗余字符也做了过滤处理。
判别：判别模块我们主要解决堆砌重复问题、badPattern、低置信语法和标点规范等维度问题。最终我们使用的有效可用的推荐理由训练数据量超过1600w，基本已经达到了目前淘宝平台可用训练数据的极限。

开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第 26 天，点击查看活动详情