智能客服搭建（6）——5步骤之二富集数据资源这是五篇第二篇，坚持到这里我们已经对智能客服不再陌生，甚至有点疲倦？？？还需

这是五篇第二篇，坚持到这里我们已经对智能客服不再陌生，甚至有点疲倦？？？还需要继续努力。
2020.12.26插入：对于UNIT的专业术语和对话系统设计的专业术语需要多翻阅一下（温馨小提示）

智能客服搭建专栏
欢迎大家来一起学习(#.#)。

一、资源类型和如何富集

~~下面我们来具体看如何富集数据~~

获取更多的实体编辑数据。
比如：做一个打开某app的功能，可能就需要收集一些常用app的名称，使得系统识别准确率更高

针对每个词槽/关键词至少产出3-5实例

在这里插入图片描述

获取更多的可以标注数据条目。
例如聊天数据或者问答数据，一些社交媒体、论坛、问答社区可能包含此类数据。

通常情况下，标注100个对话样本就可以进行基本的训练，当数据达到1000个的时候，可以达到基本可用的标准。

下图是UNIT平台上训练机器人的图（后续会有实操）
在这里插入图片描述

Q:没有真实样本或者问答对怎么办

A：在没有真实的业务数据的情况下，搭建一些对话模板，用这个模板搭建的系统上线，进一步积累真实的对话样本。

注：对话模板是一种快速生效的匹配工具，可以根据训练集抽象高质量的模板提升效果。甚至在某些高标准模板情况下，可以直接用来训练。

下图是UNIT平台添加对话模板

在这里插入图片描述

例如：常见的文本资料里面可能出现中英文标点混用，可能出现“的”、“得”、“地”混用的情况，应该尽可能的做一些合理的数据变形，使得机器具有更多泛用性。

~~针对这个，提一点我自己的理解。~~

用户：
怎么才能快乐的玩足球呢？

分析：
这里其实正确问法应该是“怎么才能快乐地玩足球”，如果我们给机器人没有做三种de的数据合理变形，三种de通用，就可能造成召回率/问题解决率/成功率低下的问题。