用语音对话AI技术浏览艺术博物馆
基于“Alexa Conversations”这项AI驱动的对话管理工具构建的“艺术博物馆”技能,允许人们通过语音指令浏览某艺术中心收藏的300多件艺术品。
“Alexa Conversations”是美国开发者现已可广泛使用的首个基于深度学习的对话管理器。它利用人工智能帮助开发者创建自然、类人的语音交换,弥合了可手动构建的体验与可能有机发生的广泛交互可能性之间的差距。
使用“艺术博物馆”,访问者可以说诸如“我想看一幅画”、“带我去看印度的雕塑”或“给我看看另一幅类似的”等短语,在不同作品间导航。同时,微妙的环绕音效——那种任何在博物馆待过的人都熟悉的、人们走动时的低沉声音——营造了一种实体环境的氛围。
该技能利用了某艺术中心的公共API,在去年秋季的“Alexa Conversations技能挑战赛”中获得了大奖。用户可以说“Alexa,打开艺术博物馆”来使用该技能。
“这是一个非常棒的体验,尤其是在我们都必须待在家里的这段时间里,能够浏览某中心的一家艺术博物馆,”某中心对话服务总监Arindam Mandal说。“这是首批为浏览艺术提供对话式体验的技能之一,让你感觉就像在博物馆里一样。”
一种创新的媒体导航方式
“艺术博物馆”的开发者John Gillilan和Katy Boungard最初在2018年某中心re:Invent大会的一次黑客马拉松上为这个概念创建了一个原型。当去年的“Alexa Conversations”挑战赛出现时,他们认识到有机会以新的方式探索文化资产目录的想法。
Gillilan和Boungard在洛杉矶工作,为媒体公司提供咨询,探索语音和更自然、对话式AI的创意潜力。
“语音通常以实用为重点,”Gillilan说。“我们俩总是带着内容和媒体的敏感性来对待语音技术。这就是这项技术让我们兴奋的地方。”
为语音编写代码可能具有欺骗性的复杂。以订购披萨这样简单的事情为例。下订单的人可能会通过要求一个“带有两种配料的披萨”一次性提交两个数据点。然后,他们可能决定通过说类似“换成大的”这样的话来修改订单。当一切都说完了,开发者可能需要考虑数千条对话路径来完成一份披萨订单。
“Alexa Conversations”通过使用深度学习来推断基于开发者提供的样本的不同措辞变体和对话路径,从而减少了开发者需要编写的代码量。对于“艺术博物馆”,这使得能够基于用户的简单请求动态构建艺术收藏——无论他们是否熟悉这些艺术。
“在设计没有使用‘Alexa Conversations’的Alexa技能时,你真的必须规划和预测用户在每一步可能会问什么,”Boungard说。“‘Alexa Conversations’让你能够灵活地捕捉这一点,而无需创建特定的对话流程。”
例如,用户可能要求看法国的画作,然后突然决定改变主意,要求看意大利的画作。Boungard说,“Alexa Conversations”提供的上下文管理有助于使这种过渡无缝进行。开发者还使用了某中心的Rekognition服务来提取额外的描述性标签,描述人们可能如何从视觉上描述艺术,例如水或树。
某艺术中心对这一新技能表示欢迎。“我们很高兴向公众提供我们的API,因为我们知道人们会构建我们自己没有想到的东西,”该中心的工程总监Nikhil Trivedi说。“Katy和John的Alexa技能是我们开始看到的众多例子之一——一个将我们藏品的探索与我们多年来开发的丰富音频内容宝库相结合的工具。”
“Alexa Conversations”背后的AI
直到现在,语音工具包“将构建线性体验的知识制度化,它们使得实现那些线性路径变得非常容易。这就是为什么当你部署它们时,如果客户偏离那些线性路径,它们就不太好用,”Mandal说。
相反,“Alexa Conversations”鼓励开发者从他们想要创建的自然对话体验开始逆向工作。为了帮助这个过程,某中心发布了关于编写示例对话的指南,从创建一个简单的交换开始,并在此基础上进行定制。
“对话管理的核心,也就是‘Alexa Conversations’的全部意义,是查看一系列话语并解释用户在这一轮的最佳意图是什么,以及我应该采取什么行动?”Mandal指出。
“Alexa Conversations”的核心建立在一个深度学习模型之上,该模型能够解释语言,而无需针对所有可能的语言变体进行训练。该模型通过模拟人机对话进行训练,因此开发者不需要提供自己的训练数据。相反,他们提供示例对话,同时指定何时调用API及其所需的参数,以便对话管理器能够收集信息来触发开发者的技能代码。
“Alexa Conversations”可以“直接从词语预测API,”Mandal说。“这就是以最小的开发者努力创作口语对话体验的未来。”
Gillilan和Boungard表示,“Alexa Conversations”的灵活性鼓励了一种完全不同的方式来思考如何设计和构建语音交互。正如Mandal所指出的,许多开发者已经习惯于以线性方式思考所有类型的语音体验——随着构建更自然、灵活的技能变得更容易,这种情况将会改变。
“我以前做过一些以交易为导向的项目,不得不手动构建那个脚手架,”Gillilan说。“如果那些项目有‘Alexa Conversations’,会容易得多。”
有关“Alexa Conversations”的更多信息,请访问Alexa开发者博客。