电话机器人的TTS，ASR和NLP怎样配置一起养成写作习惯！这是我参与「掘金日新计划 · 4 月更文挑战」的第17天，点

一起养成写作习惯！这是我参与「掘金日新计划 · 4 月更文挑战」的第17天，点击查看活动详情。

TTS配置

机器人引擎程序会根据配置生成voice和text使用utf8字符编码，然后进行url编码。用户可以直接实现TTS服务，也可以使用ASRPROXY提供的tts服务。

发音人列表：可以配置多个发音人，每个电话循环使用发音人，避免每个电话都是同样的声音。
- 阿里云看voice参数值。
- 科大讯飞发音人授权管理看参数(vcn/voice_name)的值。以下及几个基础发音人，特色发音人联系科大购买。
  - 讯飞小燕（xiaoyan）
  - 讯飞许久（aisjiuxu）
  - 讯飞小萍（aisxping）
  - 讯飞小婧（aisjinger）
  - 讯飞许小宝（aisbabyxu）
- 百度
  - 度小宇=1
  - 度小美=0
  - 度逍遥（基础）=3
  - 度丫丫=4
  - 下面几个发音人都需要购买的
  - 度逍遥（精品）=5003
  - 度小鹿=5118
  - 度博文=106
  - 度小童=110
  - 度小萌=111
  - 度米朵=103
  - 度小娇=5
默认发音人：如果配置了默认发音人，就不会使用循环使用发音人列表里面的发音人。
TTS配置：ASRPROXY可以配置多个不同的TTS服务和KEY，通过这个配置来控制使用具体的TTS服务。
录音路径：不是TTS文件的缓存录音路径，是真人录音文件的存放目录。
音量语速语调：都是0-100之间 0默认 100最大。
引擎
- 阿里云
  0 统计参数合成: 基于统计参数的语音合成，优点是能适应的韵律特征的范围较宽，合成器比特率低，资源占用小，性能高，音质适中
```
1 波形拼接合成: 基于高质量音库提取学习合成，资源占用相对较高，音质较好，更加贴近真实发音，但没有参数合成稳定
```

ASR配置

设置默认ASR参数，如果流程节点单独设置了ASR参数，就会覆盖全局设置。

模式：【mode】0:不启动ASR识别 1：放音的同时开启ASR识别; 2：放音完成之后才开启ASR识别。
打断：【interrupt】0：关键词打断；1：检测到声音打断； 2：有识别结果打断； 3：识别到一句话打断。【关键词打断的可选功能，可以组合使用，比如要使用16和32，就设置48。16: 放音结束后识别到一句话就停止等待。 32: 放音时识别到一句话就不等待(隐含16)。64：放音时检测到声音就暂停放音。】
地址：【asrproxy_addr】asr代理地址。
开始：【vad_min_active_time_ms】说话时间大于这个值才开始提交ASR。
停止：【vad_max_end_silence_time_ms】静音时间大于这个值认为说话停止。
等待：【wait_speech_timeout_ms】放音完成后等待用户说话的等待时间。
最大：【max_speech_time_ms】最大说话时间，说话时间超过这个值就停止ASR。
热词：【hot_word】ASR热词。
参数：【asr_params】ASR参数。例如：{“group”:”default”}，控制asrproxy使用那个asr配置组去识别。
录音：【record_mode】录音方式。0:不录音,1:检测到声音开始录音,2:全部录音。
路径：【record_template】录音路径模板。如果不是绝对路径，会把这个路径追加到FreeSWITCH的recordings后面。支持变量，比如日期 ${strftime(%Y-%m-%d)}。最后一个录音文件路径会保存到变量$ {cti_asr_last_record_filename}

NLP配置

配置NLP接口地址和同义词组。

接口地址：NLP接口地址。
同义词组：把相同一样的词可以放到一个组里，配置流程的时候，可以直接选择关键词组。

意向配置

可以根据意向转接到分机或者通知到http接口。

intention_threshold 意向大于这个值触发意向通知
calltime_threshold 通话时间大于多少秒触发意向通知，单位秒。
notify_condition 通知规则（0:意向和通话时间任意一个满足就触发通知，1:意向和通话时间2个同时满足才触发通知）
notify_http 通知到http接口地址
notify_linegroup 通知到坐席组，就是线路组。
human_answer_stop_robot 0:坐席接通后进入监听模式，按DTMF*才进入通话模式 ,1:坐席接通后机器人自动停止对话。
beep_time 坐席接通时的滴声时间，单位毫秒。
rest_time 坐席接完一个电话后的休息时间，单位毫秒。

知识库

把常见问题的回复预先定义好，可以通过关键词或者NLP触发知识库放音

分类：可以设置很多不同的分类方便和流程结点关联
关键词(keywords)：支持正则表达式，识别到关键词，就触发机器人放音
放音(playbacks)：支持TTS和文件放音支持变量。
重复(repetition)：可以防止多次重复触发。
意向(potential)：用于判断客户意向
忽略流程放音(ignorereturnplayback) 1:忽略，其他值不忽略。知识库放音完成后默认自动播放流程放音，可以通过这个配置只播放知识库放音，不播放流程放音。
切换流程(switchflow) 可以通过知识库切换到子流程，子流程执行完成可以回到主流程就行执行。
- 流程ID 切换到指定流程
- return 返回源流程(只有从全局流程进入到知识库才有源流程。)
- text:前缀切换到当前流程的文本输入匹配的子流程
- dtmf:前缀切换到当前流程的DTMF输入匹配的子流程
- complete:前缀切换到当前流程的完成输入匹配的子流程

流程编辑

通过拖拉方式配置话术流程。

全局流程

需要多处重复执行的流程，可以单独配置一个全局流程

时间限制

只匹配通话的前多少毫秒的识别结果，不设置或者0无限制，单位毫秒

按次限制

只匹配前多少次的识别结果，不设置或者0无限制，一句话算一次，禁止打断时候说话不算

忽略禁止打断

就算配置了禁止打断，也尝试匹配这个全局流程,典型的用法开场白设置了静止打断，但是要挂断语音信箱应答的通话。

流程节点

通用

描述：介绍流程的用处
ID: 唯一ID
意向: 意向分级，如果是正数比如3，就是意向加3，如果是负数比如-2，就是意向减2，强制设置意向值前面加个等于号，比如=5意向强制设置为5。
重复限制：动作最大执行次数，可防止流程进入死循环,不设置或者0，不限制，比如设置1，就是限制只能执行1次

放音

NLPID(nlpid)：NLP ID,配置了这个值才会把输入事件提交给NLP接口处理
放音(playbacks)：机器人播放的声音文件
重复放音(replaybacks)：第二次进入(比如其他流程返回)机器人播放的声音文件，如果不设置，会使用“放音”设置的参数。如果没配置知识库返回音,知识库返回也会播放这个声音。
第三次放音(thirdplaybacks)：第三次或者更多次进入(比如其他流程返回)机器人播放的声音文件，如果不设置，会使用“重复放音”设置的参数。知识库返回会忽略这个配置
更多次放音(fourplaybacks):第四次或者以后进入(比如其他流程返回)机器人播放的声音文件，如果不设置，会使用“重复放音”设置的参数。知识库返回会忽略这个配置。
原流程层数(sourceflowdepth):输入和原流程(通过知识库切换流程或者全局流程进入时的流程)的子流程条件进行匹配。0：不关联原流程，大于0：关联原流程的层数。用法见下图。
全局流程(globalflow): 关联的知全局流程，可以设置多个，all:关联所有全局流程。为了防止死循环，全局流程的子流程，会自动排除所在的全局流程，即不会关联所在的全局流程。
知识库优先(kb_priority)：0：子流程优先，1：知识库优先。默认是先匹配子流程关键词，然后匹配知识库关键词，如果设置了知识库优先，就会先匹配知识库关键词，然后再匹配子流程关键词。
知识库(kb)：设置关联的知识库
知识库返回音(kbplaybacks)：播放完知识库回答后面播放的声音，或者全局流程返回播放的声音。
返回切换流程(kbswitchflow)：触发知识库或者全局流程返回后，直接执行切换流程（不播放知识库返回音）,top：返回到最顶级流程，return：返回到上一级流程，也可以指定流ID。其他参数和return动作的返回值一样”)
无输入放音(timeoutplaybacks)：DTMF按键超时或者未检测到用户说话（ASR没识别到文字）机器人播放的声音文件，优先级高于(ANY),如果无输入次数超过限制，则执行ANY流程。如果没设置无输入放音但是设置了未匹配放音，则执行未匹配放音。
无输入追加放音(timeoutaddplayback):无输入放音之后是否播放默认放音（如果配置了重复放音，就是播放重复放音，如果没配置重复放音，就是使用放音配置）。
无输入限制(timeoutrepetition)：无输入放音最大连续执行次数,如果最后一个字符是s,表示使用时间限制代替次数限制，单位秒。比如10s,表示10秒之内TIMEOUT()输入，都执行无输入放音，10秒之后则执行ANY流程。
未匹配放音(mismatchplaybacks):未匹配到关键词播放的声音
未匹配追加放音(mismatchaddplayback):未匹配放音之后是否播放默认放音（如果配置了重复放音，就是播放重复放音，如果没配置重复放音，就是使用放音配置）。
未匹配限制(mismatchrepetition)：未匹配关键词最大重复播放未匹配声音的次数，超过次数会走ANY流程。
dtmf(filter.dtmf): DTMF终止符，any:任意字符，none:无终止符，max=最大输入DTMF个数,比如max=16,只有设置了DTMF终止符,才会处理DTMF输入(DTMF就是电话按键的别称)
噪音规则(noiserule):ASR会把噪音错误的识别成文字，可以通过正则表达式，把一些识别结果判断为噪音过滤掉。
禁止打断(disablebreak):控制是否允许打断，-1：放音的时候都不允许打断。0：任何时候都允许打断，大于0：放音前多少毫秒内禁止打断。【禁止打断时说话会执行ASR识别，但是不会执行关键词匹配逻辑，如果需要放音时说话不执行ASR识别，可以直接修改ASR模式。】
允许抢话(quickresponse):需要ASR流接口能实时返回识别结果才支持抢话，就是不等用户说完，就开始匹配关键词，让机器人更快的回答。
模式：【mode】0:不启动ASR识别 1：放音的同时开启ASR识别; 2：放音完成之后才开启ASR识别。
ASR参数可以覆盖全局配置的默认ASR设置

转移

分机：extension:拨号方案目的的。
拨号方案：dialplan:拨号方案类型，默认XML。
上下文：拨号方案上下文。类如public,default

返回
重放知识库: 如果上一个放音是知识库放音，是否重放知识库
放音：这个放音会和跳转后节点的放音连接起来，如果跳转后的节点不支持放音，那么这个放音不会生效。
返回值：空：返回到调用流程；流程ID:返回到指定流程(如果找不到流程，则挂机)；”text:”：前缀匹配调用流程的文本输入；”dtmf:”：前缀匹配调用流程的DTMF输入；”complete:”：前缀匹配调用流程的完成输入。（如果通过输入匹配不到子流程，则返回调用流程）

排队
名字：要进入的排队名字。
等待：最大等待时间，单位秒。默认不限制。
优先级：总的3个优先级， 0：低优先级 1：中（默认） 2：高优先级别。

条件判断

优先级：匹配的顺序，从高到低匹配。
文本：说话会触发这个事件，[asr识别结果，支持正则表达书,ANY表示匹配任意文本,如果配置了未匹配放音，只有未匹配次数超过了限制，才执行ANY（前缀F：识别完成，前缀E：系统错误，前缀S：识别中,需要开启允许抢话才有实时输入）。
完成：流程节点执行完成会触发这个事件，完成原因格式BREAK|DONE|TIMEOUT|ERROR，ANY匹配任意原因,如果配置了未匹配放音，只有未匹配次数超过了限制，才执行ANY，为了意外情况，建议每个节点，都添加一个any子节点。
- TIMEOUT 放音完成后，等待【wait_speech_timeout_ms】事件内没有按键或者说话，或者最大说话时间到了，还没停止说话。TIMEOUT(F:放音时候的识别内容S:超过最大说话时间了)。如果没检测到声音就是TIMEOUT()。
- DONE 按键符合终止条件，或者说话停止了，但是 DTMF和文本都没匹配上子流程。
- ERROR 动作执行遇到错误。比如放音文件不存在
- BREAK 动作给外部打断了。
按键：必须配置了DTMF终止符，电话按键才会触发这个事件，输入格式[d|D]后跟DTMF字符，d:未匹配到终止符，D:已经匹配到终止符，[ANY表示匹配任意按键,如果配置了未匹配放音，只有未匹配次数超过了限制，才执行ANY]

faq

放音文件

文件后缀 .wav或者.mp3，或者前缀file://(文件格式尽量用wav,8000hz,16bit,单声道。)
信号音前缀tone_stream://
静音前缀silence_stream://,例如：silence_stream://1000 ,播放1000毫秒静音
变量 ${变量名}，可以导入号码的时候设置号码关联的变量，会把变量会调用TTS转换成声音文件，如果变量是声音文件名应该 file://$ {cti_asr_last_record_filename} 这样。
文本调用TTS转换成声音，因为大部分TTS有长度限制，比较长的句子，要分成多段。就是流程编辑器里面分成多行。
cti 模块有预先执行TTS的功能，为了不影响预先执行功能，变量要单独一行，比如不要 ${username}你好，应该在话术编辑器的输入框$ {username}放一行，你好放第二行。因为变量需要电话呼叫后，才有实际的值，变量会在电话接通后再执行TTS。非变量在流程加载的时候就可以预先执行TTS。
http文件加一个前缀”(nohead=true,abs_cache_control=2147483647)http://ip/1.wav“, 可以只下载一次，就永久缓存，如果http路径最后不是.wav或者.mp3指定文件格式的，需要(nohead=true,abs_cache_control=2147483647,ext=wav)用ext指定一下格式。文件格式尽量用wav,8000hz,16bit,单声道。
cti.conf.xml 这个配置要和tts的并发一样。预先TTS时，最多同时多少个线程调用TTS。

条件匹配顺序

用户说话，ASR返回识别结果执行文本输入事件。注意全局节点和流程子节点的优先级是统一排序的。

文本关键词匹配
按照每个包含文本条件[箭头属性]的优先级匹配关键词、
知识库关键词匹配
匹配节点关联的知识库
文本 ANY
无输入放音
完成关键词匹配
如果完成输入是没检测到任何识别结果[timeout()]，并且配置了无输入放音，执行无输入放音
未匹配放音
如果完成输入未匹配到关键词，并且配置了未匹配放音，执行未匹配放音
完成 ANY
未匹配超过最大次数，或者未设置未匹配放音，则执行ANY条件。 ANY条件优先级最低。

限制流程重复执行次数

知识库和流程节点，都可以配置重复执行次数，超过次数，则会跳过这个节点。为了防止死循环，默认最大可循环20次。
第二次进入节点，可以配置重放声音文件，就不会感觉机器人一样，重复播放一个文件了。
常用于挽回流程，举例你需要吗 -> 不需要 -> 要不要在考虑一下 -> 好吧 ->这时候就跳转回“你需要吗这个节点”。配置重复次数，可以防止一直循环，配置重放声音文件，第二次进入节点，可以播放一个不同的声音文件。

电话机器人的TTS，ASR和NLP怎样配置