VUI(语音用户界面)设计入门

1,102 阅读12分钟

“定个上午7:15的闹钟”

——“好的,正在拨打 Selma Martin"

“不是,把闹钟设定到上午7:15”

——“对不起。这个我办不到。”

“emmm。。。(叹气声)”

开始手动设置

我们的声音是复杂的多变的丰富的。即便是人与人之间的语言交流在理解上也会存在偏差,更不用说让机器来理解人的语言了。描述意图的方式、文化上的差异、各种俚语习语等,这些都会影响语言最终传达意义的理解。

所以设计师和工程师如何应对这个挑战?如何使用户和AI之间建立信任?这就要依靠VUI设计。

语音用户界面是将视觉、听觉、触觉做为主要或辅助的方式来促成人与机器进行语音指令交互的人机界面。简单来讲,VUI可以是很多表现形式,比如当听到你的声音后,汽车中控台的指示灯发出的闪烁。注意一点,VUI不一定需要视觉界面,它可以完全是音频或者震动的形式

VUI的表现形式有很多,但都遵循一些基本的可用性设计要素,接下来我们会讨论这些要素,如果你是用户则可以跟随这篇文章来解析每天都在使用的语音操作;如果你是设计师这篇文章会帮你创造更好的用户体验。

我们交流的方式受到技术、环境、社会关系的制约。信息处理的速率、将信息转化成行为的准确性、交流信息的语言或术语、以及行为(执行操作)的载体(可能是我们自身或者是他人)。

在开始谈具体设计之前,我们先要说说语音使用的情景。

设备类型的影响

手机

  • iPhones, Pixels, Galaxies

  • 蜂窝网络、wifi、配对设备;

  • 环境的影响微小;

  • 用户比较习惯(在此设备上)使用语音交流;

  • 可以通过视觉、听觉、触觉提供交互反馈;

  • 不同型号具有较统一的标准化;

穿戴设备

  • 针对特定目的的具有特定功能的设备,例如手表、手环、智能鞋;

  • 蜂窝网络、wifi、配对设备;

  • 用户需要习惯和适应语音交流,但这种交互流程是依照设备指定好的规则进行的;

  • 一部分穿戴设备可以提供视觉、听觉、触觉的反馈,一部分则无法提供明确的反馈;

  • 通常需要依赖配对的设备提供数据处理和交互操作;

固定式接入设备

  • 桌面电脑、有屏幕的家电、智能中央空调、智能家居网关、智能音响系统、电视;

  • 有线连接网络、wifi、配对设备;

  • 用户比较习惯在相同的地点使用这种设备,并设置使用偏好;

  • 相同类型的设备具有各自的拟标准化语音交互方式(台式电脑 / 智能家居中心例如Google Home亚马逊Alexa / 智能中央空调)

移动式计算设备(非手机)

  • 笔记本电脑、平板电脑、遥控钥匙发射器、车载系统;

  • 无线网络、有线链接网络(不经常)、wifi、配对设备;

  • 主要的输入方式一般不是声音;

  • 环境的影响微小;

  • 不同设备类型之间没有标准化的语音交互方式;

将不同的模式情景进行排序

在对具体用例进行用研的时候,将使用语音交互的不同情景模式进行量化排序是很重要的。

如果有用户说:“我的天,如果我能告诉我的电视机让它换台就好了”,这个时候需要深挖一下。他们真的会这么使用吗?他们真的了解各种限制因素吗?他们真的知道自己这么做想要达到的目的吗?

设计师要比用户更了解他们自己。

一定要思考用户在有多种可用操作方式的情况下,而使用特定交互方式的可能性。

举个例子,假设我们要测试用户会不会通过语音指令来操作电视机。这里假设语音交互是可行的一种操作方式。

用户可以通过多种方式来操作电视:遥控器、手机、游戏手柄或者联网的IoT设备。语音不是必要的默认操作方式。只是其中的一种可行的方式。

所以问题就变成了:用户在什么情景下回依靠语音交互作为主要的操作方式?如果不是主要会不会是次要的?再次的?这可以帮助限定各种假设和制定UX原型。

技术限制条件

将语言转换成机器指令是一件非常困难的技术挑战。在高速数据链接的环境下,同时依据具体的情况经过一段不确定时长的运算,一个良好训练调试的语音引擎才能得当的理解我们的话语,并触发合适的指令。

不过现实是设备不可能时刻处于高速的网络环境中,也不会有无限制的处理时间。尽管语音处理的流程和算法更加的复杂,我们还是希望语音交互是实时的就像传统的视觉触控的方式。可见要处理语言中的词汇、口音、声调等等,需要训练大量的模型。

每一个语音识别平台都会相应的技术限制。因此在设计语音交互界面之前需要明确这些限制和制约因素。

可以从以下几个方面入手:

  • 连网状态——设备是否会一直保持网络连接状态?

  • **处理速度——**用户是否需要实时的语音处理?

  • 准确性——是准确性重要还是处理速度重要?

  • 对话模式——识别模型对语音的理解程度如何?可以理解完整的句字,还是只能听懂词组?

  • 失败对策——如果语音无法被理解,设备会做出什么反馈,用户有没有别的选择来完成操作?

  • 错误控制——如果错误的语义理解会不会触发不可取消的操作?语音引擎是否能够避免严重的错误?

  • 环境测试——是否在各种复杂的外部环境中测试?例如,假设我在设计一个车内系统,就要比设计一个智能温控器考虑更多环境噪音的影响。

语音体验

前面我们讨论了限制、依赖和用例,接下来开始具体探讨语音UX。首先我们要知道设备如何知道什么时候开始聆听我们的语音。

激活

基本上有四种形式:

  • 语音触发——用户需要说出一个短语来提示设备开始监听对话(OK Google)

  • 手动触发——通过点击(物理或虚拟)按钮,来触发

  • 动作触发——在传感器前挥手

  • 自我触发——固定事件或者预先的设置(备忘录的提醒需要得到确认)

我们需要依照用户用例采用适合的触发方式来进行设计。

状态提示

一般当设备激活开始进入聆听状态之后,需要有一定的状态提示用户,可以是声音、视觉或者触觉的反馈

具体设计是可以遵循以下原则:

  • 即刻——当语音被触发后状态提示应当以最快的速度出现,即使会打断现有正在运行的操作(打断而非中断)

  • 简短——提示应当几乎是瞬间结束,尤其对于经常操作的用户。例如,两声明确的“哔哔“比“好的,贾斯汀,需要什么帮助?”更有效率。提示信号越长,用户语言就越容易与其相冲突。视觉提示也同理。界面应当立刻转换到聆听的状态。

  • 清晰——应当使用户明确的感知到声音正在被识别。

  • 一致——提示应当时刻保持一致,不同的声音或者视觉反馈会困扰用户

  • 区分度——提示应当区别于设备常规的状态提示音或者视觉反馈,同时也不要出现在任何其他的流程中。

  • 辅助提示——尽可能采用多种形式组合提示(例如两声哔亮度改变屏幕对话框同时)

  • 新手引导——对于初次使用的用户可能会卡住,可以给用户提供一些建议来促帮助用户开始语音交流

监听反馈

监听反馈是语音交互界面成功的关键。他能使用户直接连贯的感受到声音被设备接收和识。同时在这个过程里,用户会对结果进行进行纠正和确认。

可以遵循以下原则进行设计:

  • 实时视觉反馈——反馈的视觉主要以颜色和纹理的改变表达来对应声音的不同维度包括:声调、音色、强度、时长等,以实现实时对应的迅速的视觉反馈。

  • 声音重放——一个简短的回放能够帮助确认语音理解的准确与否

  • 实时文案——实时的文字变换显示能够起到很好的辅助作用

  • 文字输出——在用户说完之后,经过程序识别修正的信息以文字的形式显示出来。这是也语音指令被具体执行之前,用户用来进行纠正的和确认的首要依据。

  • 无屏幕视觉反馈(光、光图形)——以上的反馈不仅限于屏幕界面,同样也适用于LED指示灯以及LED阵列。

结束提示

这个提示表示设备已经结束聆听用户的语音并开始执行具体的指令。触发提示的设计原则同样适用于这里(即刻、简短、清晰、一致、区分度)。还有额外的几点:

  • 充足等待——要给用户留有充足的时间完成操作。

  • 弹性时间——需要根据具体的用例和习惯来调整反应时间。比如,用户要回答一个‘是’或‘否’的问题,结束提示应当在收到声音后有一个合理的停顿。

  • 合理的停顿——是否考虑在接收完语音之后做一定的停顿?这在计算上有些挑战同时还要考虑上下文的关联以及具体的用例。

会话体验

一些简单的指令不需要展开一段往复的对话,例如“打开闹钟”,但一些复杂的指令则需要对话来完成。同人与人之间的对话不同,人机对话需要额外的确认、雍余和修正(指令)。

复杂指令的对话或交互需要更多的语句/修正来确认传达的准确性。一些复杂的指令用户可能会不知道要问什么以及怎样去表达问题。因此需要VUI来辨识信息并允许用户提出额外的补充。

确认行为——当设备听懂了语音后,应当播报一段确认语音来明确之前的指令。例如,回复“好的,灯将关闭”或者“您确定要将灯关闭吗?”比只回复“好的”,明确很多。

修正行为——当设备无法理解用户的意思的时候,应当给出修正选项。这样用户可以选择进行推测的修正,或者重新开始新的对话。

感性行为——当系统无法完成用户的要求时,应当表达出没能理解用户意图和无法完成指令的遗憾,并提供给用户修正的选项。理解用户感受有利于提高用户对人工智能的好感度。

拟人化

给设备加入拟人的特征的语音互动设计有利于建立人机之间的连系。这种拟人化的设计可以通过以下方式展现:灯光图案、跳动的形状、抽象的圆形图案、机器合成语音和声音等。

这种关系能帮助人机之间建立亲密的联系,同样适用于其他具有类似语音交互操作的产品,例如谷歌助手、亚马逊Alexa、苹果的Siri。

  • 个性化——给交流增加新的维度,给虚拟的语音增加个性的人格,在交流中减少和用户的距离感,这样能够减少对话出现错误时的负面影响。

  • 积极性——播报整体要体现积极的态度,在交流中使用鼓励及肯定的语气。

  • 自信和信任——鼓励用户发起更多的或者复杂的对话,使用户建立更多的自信与设备交流,用户有更多的信心,对整体的人机交流有积极的作用。

总结和资料

VUI是非常复杂具有多样性,且通常混合多种交互形式的混合体。实际并没有一个定义能完整的涵盖它(VUI)所有的方面。重要的是当今随着数字化的不断发展,我们花在智能设备上的时间会越来越多。VUI最终会不会成为我们和世界交流的主要方式呢?我们拭目以待。

如果你正在试图设计一个世界一流的VUI,下面的这些可能会对你有帮助:

  • How to Design Voice User Interfaces | Interaction Design Foundation

  • What Is a Voice User Interface (VUI)? An Introduction | Amazon Developers

  • Voice Actions | Google Developers

  • SiriKit | Apple Developers

  • Designing a VUI by Frederik Goossens

  • A Guide to Voice User Interfaces by Fjord