Alexa进入“自我时代”的AI技术演进本文探讨了Alexa如何通过自感知、自学习和自助服务三大技术方向实现AI系统的自

Alexa进入“自我时代”

更加自主的机器学习系统将使Alexa更具自我感知、自我学习和自助服务能力。

作者：Prem Natarajan
2021年6月2日
阅读时间8分钟

Alexa于2014年推出，在此后的六年多时间里，一直致力于让Alexa每天变得更智能。除了对Alexa核心AI技术（如语音识别和自然语言理解系统）的基础性改进外，Alexa科学家还开发了让客户持续喜爱的技术，例如低语语音和Alexa新的实时翻译服务。

但已经开始引入的一些技术，连同正在研究的其他技术，预示着Alexa开发以及AI领域本身将发生一次重大变革。这些技术 collectively 将为Alexa语音服务和Alexa开发者可用的工具带来新的通用性和自主性，开启一个我称之为人工智能“自我时代”的新阶段。在这个时代，像Alexa这样的AI系统将变得更具自我感知能力、自我学习能力，并且能够为经验丰富的开发者甚至终端用户提供自助服务。

所谓自我感知，是指能够维持对环境状态（例如，时间、恒温器读数、近期操作）的感知，并运用常识推理做出反映该感知以及先验/世界知识的推断。Alexa的“预感”已经能够识别客户日常活动中的异常并提出修正建议——例如，注意到夜间灯未关并主动询问是否关闭。在常识推理的驱动下，自我感知更进一步：例如，如果客户在孩子足球训练预定结束前五分钟打开电视，未来的AI可能会推断客户需要提醒去接孩子。

在“自我时代”，AI将能够从可观察的时间模式中推断出客户的隐含意图，例如与恒温器、门锁、灯光等智能家居设备的交互。

自我学习 是指Alexa无需人工干预即可改进和扩展其能力的能力。与自我感知一样，自我学习也运用推理：例如，客户对某个操作的反应是否表示对该操作不满意？同样，当客户发出不熟悉的指令时，真正具备自我学习能力的Alexa能够推断其可能含义——也许通过搜索网络或探索知识库——并给出可能的建议。

自助服务 本质上意味着AI的民主化。没有编程经验的Alexa客户应该能够定制Alexa的服务甚至创建新的Alexa功能，而没有机器学习经验的技能开发者应该能够构建复杂而稳健的对话技能。通俗地说，这些就是对话式AI领域的无代码和低代码开发环境。

需要明确的是，“自我时代”尚未到来，它的曙光需要等待仍在开发中的技术（无论是在某机构还是其他地方）走向成熟。但Alexa最近推出的一些功能预示着东方天空的微亮。

自我感知

2018年，为智能家居推出了Alexa预感，Alexa会建议针对异常传感器数据采取行动。到2021年初，科学取得了足够进展，推出了一项可选择加入的服务，Alexa可以立即自动采取行动。同时，也一直在努力将预感扩展到智能家居以外的Alexa服务。

技术将为Alexa语音服务和Alexa开发者可用的工具带来新的通用性和自主性，开启我称之为人工智能‘自我时代’的新阶段。
——Prem Natarajan

但常识推理需要更多——能够从可观察的时间模式中推断客户的隐含意图。例如，如果客户调低恒温器、关灯、锁上前门并打开车库门，这意味着什么？如果客户以“Alexa，Rolling Hills Cine Plaza在播放什么电影？”这样的查询发起交互，又意味着什么？

2020年，通过一项新的Alexa功能向常识推理迈出了步伐，该功能可以推断客户的潜在目标——即一系列请求背后的最终目的。例如，当客户询问海滩的天气时，Alexa可能会利用该查询结合其他上下文信息，推断客户可能对去海滩旅行感兴趣。然后Alexa可以提供当前前往海滩的驾车时间。

为了检索该信息，Alexa必须知道如何将天气请求的位置映射到路线规划功能中的目的地变量。这说明了自我感知的另一个方面：跨上下文追踪信息的能力。

这一能力是开发的“夜间外出体验”的核心，该体验通过多轮对话与客户互动，规划完整的夜间外出活动，从购买电影票到预订餐厅和拼车服务。夜间外出体验会在不同技能之间追踪时间和地点，并在客户评估不同选项时动态调整。为了构建这种体验，利用了Alexa Conversations的机制——该服务使开发者能够快速轻松地创建对话驱动的技能——并借鉴了关于对话状态追踪的日益丰富的研究成果。

自我感知不仅包括对对话上下文的理解，还包括对客户物理上下文的理解。2020年，在带有摄像头的Alexa设备上演示了自然轮次切换。当多个说话者与Alexa交互时，Alexa可以利用视觉线索区分客户彼此间的对话和客户对Alexa发出的指令。在正在进行的工作中，正在努力将这一功能扩展到没有摄像头的设备上，仅依靠声学和语言信号。

最后，自我感知还需要自我解释的能力。如今，大多数机器学习模型都是黑盒子；即使是它们的创造者也不知道它们是如何工作的。这种不确定性使得可解释或可解读的AI成为一个热门研究课题。某机构积极发表关于可解释AI主题的研究成果。此外，某机构的风险投资计划Alexa Fund投资了fiddler.ai，这是一家使用基于博弈论中沙普利值的技术来实现可解释AI的初创公司。

自我学习

从历史上看，AI开发周期包括数据收集、数据标注以及在新标注数据上重新训练模型——这些都是耗时费力的过程。

2019年，推出了Alexa的自我学习系统，该系统无需人工参与即可自动学习纠正错误——包括客户的错误和Alexa语言理解模型中的错误。该系统依赖于请求未被正确处理时的隐含信号，例如当客户打断响应并重新表述同一请求时。

目前，这个全自动系统正在纠正15%的缺陷。但这些缺陷是跨用户群体出现的；只有当足够多的人隐含地指出同一个缺陷时，系统才会处理它。正在努力使同样的机制适应个人客户的偏好——例如，让Alexa能够学习到，当某位特定客户请求歌曲“Wow”时，她指的不是Post Malone 2019年的热门歌曲，而是Kate Bush 1978年的歌曲。

现在，客户还可以选择明确地教会Alexa他们的偏好。2020年秋季，推出了客户交互式教学功能，使客户能够指示Alexa他们希望如何处理某些请求。例如，客户可以教会Alexa，命令“阅读模式”意味着将灯调到最亮，而“电影模式”意味着只调到20%的亮度。

自助服务

交互式教学也是Alexa如何实现更多自助服务的一个早期例子。它扩展了之前的Alexa功能，如蓝图（让客户从预设模板构建自己的简单技能）和例程（让客户将一系列操作串联到单个命令下）。

2021年3月，宣布了Alexa Conversations的公开发布，允许开发者通过上传示例对话来创建对话驱动的技能。Alexa Conversations的先进机器学习模型使用这些对话作为模板，生成更大的合成训练数据语料库。从这些数据中，Alexa Conversations自动训练一个机器学习模型。

然而，Alexa Conversations确实要求开发者指定新模型应作用于的实体集以及技能的应用程序编程接口。因此，虽然它几乎不需要熟悉机器学习，但确实假设有一些编程经验。

通过让Alexa的开发变得更容易、更直观，正在稳步地消除这一要求。例如，随着Alexa技能库的增长，实体被频繁重用，已经拥有可以向开发者告知他们可能没想到要添加到技能中的实体类型的系统。这是朝着自助服务模式迈出的一步，在该模式下，开发者不再需要提供详尽的实体列表——或者在某些情况下，根本不需要提供任何实体。

另一种使构建机器学习模型更容易的技术是少样本学习，即使用少量新的训练示例将现有模型泛化到相关任务。这是Alexa的一个活跃研究领域：例如，今年早些时候，在口语语言技术会议上发表了一篇论文，描述了一种用于自然语言理解任务的少样本学习新方法。与之前的方法相比，当每个模型仅用10个示例进行训练时，该方法将某些自然语言理解任务的错误率降低了高达12.4%。

这些进步，连同在Amazon Science上报道的其他成果，表明Alexa AI团队正在继续加快其发明步伐。更多激动人心的消息即将到来。会不时回到这里，更新Alexa进入自我时代的旅程。

研究领域：对话式AI

标签：Alexa，自我学习FINISHED