这是五篇第二篇,坚持到这里我们已经对智能客服不再陌生,甚至有点疲倦???还需要继续努力。
2020.12.26插入:对于UNIT的专业术语和对话系统设计的专业术语需要多翻阅一下(温馨小提示)
智能客服搭建专栏
欢迎大家来一起学习(#.#)。
文章目录
一、资源类型和如何富集
资源类型
- 词典词槽
- 对话样本
- 问答对
如何富集
- 指定业务场景提取数据
- 对话日志中抽象相关数据
- 官方数据库
下面我们来具体看如何富集数据
二、富集词典词槽
介绍
获取更多的实体编辑数据。
比如:做一个打开某app的功能,可能就需要收集一些常用app的名称,使得系统识别准确率更高
标准
针对每个词槽/关键词至少产出3-5实例
原则
- 尽可能复用系统预置词槽
- 使用自定义词典、规则加以补充
技巧
- 自定义词典、规则优先级高于系统内置
- 自定义词槽之间优先级相等。如果一个词属于多个词槽,相应的识别出来多个词槽候选
- 规则的形式是正则表达式,注意控制通配符的范围,善用捕捉功能加以限制

三、富集对话样本&问答对
介绍
获取更多的可以标注数据条目。
例如聊天数据或者问答数据,一些社交媒体、论坛、问答社区可能包含此类数据。
通常情况下,标注100个对话样本就可以进行基本的训练,当数据达到1000个的时候,可以达到基本可用的标准。
下图是UNIT平台上训练机器人的图(后续会有实操)

标注对话模板
Q:没有真实样本或者问答对怎么办
A:在没有真实的业务数据的情况下,搭建一些对话模板,用这个模板搭建的系统上线,进一步积累真实的对话样本。
注:对话模板是一种快速生效的匹配工具,可以根据训练集抽象高质量的模板提升效果。甚至在某些高标准模板情况下,可以直接用来训练。
下图是UNIT平台添加对话模板

四、数据后续处理
- 数据清洗。清理获取到的数据,使用正则表达式等工具将数据清理完善。
- 数据标注。部分数据可能需要后续的人工标注才能使用,包括意图分类、领域分类标注、包含的槽值与实体的标注等。
- 数据变形。对特定数据进行进行变形处理,使他们能够兼容更多可能的情形。
例如:常见的文本资料里面可能出现中英文标点混用,可能出现“的”、“得”、“地”混用的情况,应该尽可能的做一些合理的数据变形,使得机器具有更多泛用性。
针对这个,提一点我自己的理解。
用户:
怎么才能快乐的玩足球呢?
分析:
这里其实正确问法应该是“怎么才能快乐地玩足球”,如果我们给机器人没有做三种de的数据合理变形,三种de通用,就可能造成召回率/问题解决率/成功率低下的问题。