工程与科学融合:Alexa的技术创新之路

2 阅读10分钟

对于许多人来说,使用语音与计算机、手机和其他设备交互是一种相对较新的体验,这得益于像某机构的Alexa这样的服务。但对Luu Tran来说,这已是轻车熟路。作为某机构的高级首席工程师,Tran与计算机对话已有三十多年。作为语音计算的早期采用者,Tran还记得个人电脑没有声卡、麦克风甚至音频插孔的时代。因此,他构建了自己的解决方案。

“我记得当我拿到第一块Sound Blaster声卡时,它附带了一个麦克风和名为Dragon Naturally Speaking的软件,”Tran回忆道。

通过一些简单的即插即用工程,Tran突然可以用语音在90年代中期的个人电脑上打开和保存文件。用语音替代键盘和鼠标是一种神奇的体验,也让他一窥语音驱动计算的未来。

快进到2023年,我们正处于语音计算的黄金时代,这得益于机器学习、人工智能和像Alexa这样的语音助手的进步。“某机构对Alexa的愿景始终是成为一个对话式的、自然的、了解你、理解你并具有一定个性的个人助理,”Tran说道。

在他的角色中,Tran负责监督了许多Alexa功能的规划-构建-部署-扩展周期:计时器、闹钟、提醒、日历、食谱、Drop In、Announcements等等。现在,他通过促进公司工程师与学术科学家之间的合作来帮助某机构,这些科学家可以推动机器学习和人工智能的进步——包括全职学者以及参与某机构学者和访问学者项目的人员。

Tran对计算范式的转变并不陌生。他之前在Akamai、Mint.com和Intuit的经历让他得以亲历科技领域一些最戏剧性的转变,包括互联网的诞生、移动设备的爆炸式增长以及从本地部署到云计算的转变。

Tran将三十年的经验运用到他在某机构的角色中,通过促进工程和科学团队之间的合作,进一步探索语音计算的潜力。每天,Tran都鼓励工程师和科学家作为一个团队并肩工作,将最新的科学研究与前沿工程相结合。

Tran正在帮助引领Alexa下一工程篇章并非偶然。从小看《星际迷航》长大,他一直对与计算机对话并能用人工智能回应的想法着迷。

“我一直认为人工智能在我的职业生涯和一生中都是遥不可及的。但看看我们今天所处的位置,”Tran说。

构建Alexa的科学工程

Tran认为,与科学家的合作对于Alexa和人工智能的持续创新至关重要。

“我来自工程师的视角,学过一些理论,但几十年来一直致力于将技术理念转化为现实,并在现实世界的约束下工作。对我来说,理解某些东西为什么有效,不如理解什么东西有效来得重要。”

— Luu Tran

“将工程和科学结合在一起,是一个强大的组合。我们的许多项目并非仅仅是可以通过更多代码和更好算法解决的确定性工程问题,”他说。“我们必须运用许多不同的技术,并利用科学来填补空白,例如机器学习建模和训练。”

帮助工程师和科学家密切合作并非易事,因为他们通常来自不同的背景,有不同的目标和激励,在某些情况下甚至说着不同的‘语言’。例如,Tran指出,“特征”这个词对产品经理和工程师的意义与对科学家的意义截然不同。

为了实现两全其美,Tran表示,Alexa团队正在采用比过去更加敏捷的方法——组建由产品经理、工程师和科学家组成的项目团队,通常根据目标、功能或所需技术的不同而有不同的组合。关于特定团队必须包含哪些角色,没有教条或规定。

Tran指出,最重要的是,每个团队从一开始就了解客户需求、用例、产品市场契合度,甚至盈利策略。让科学家从项目一开始就参与进来至关重要。“我们总是让产品经理与工程师和科学家一起组成团队。有些团队科学家和工程师各占一半。有些团队90%是科学家。这完全取决于我们要解决的问题。”

团队的构成会随着项目的进展而改变。有些团队一开始以工程为主,然后确定一个需要科学研究的用例或问题。另一些团队则以科学为主,一旦找到可行的解决方案,就逐步增加工程师来构建、测试和迭代。Tran认为,这种团队组建和变化的推拉关系,以及快速迭代的组织和重组自主权,是关键所在。

“通常,仍然是产品经理描述核心客户需求、用例以及我们将如何解决它,”Tran说。“然后科学家会说,‘是的,这是可行的’,或者‘不,这仍然是科幻小说。’然后我们进行迭代并正式确定项目。这样,我们就可以避免花费数月时间试图构建一些东西,而如果事先做了研究,就会发现用当前技术是无法实现的。”

工程 + 科学 = 更智能的食谱推荐

最近一个受益于这种新的敏捷协作方法的项目是Alexa的新食谱推荐引擎。为了向请求食谱的客户提供相关的食谱推荐(例如,厨房台面上的某机构Echo Show),Alexa必须从其庞大的集合中选出一个食谱,同时还要理解客户的喜好和背景。我们每个人都有独特的口味、饮食偏好、潜在的食物过敏以及实时背景因素,例如冰箱里有什么、一天中的什么时间以及有多少时间准备饭菜。

Alexa必须将所有参数纳入其食谱推荐中,并在毫秒内返回它认为既高度相关(例如,墨西哥菜)又个性化(例如,为素食者推荐不含肉的菜)的食谱。为每位客户提供相关、安全、令人满意的推荐所涉及的技术复杂得令人难以置信。“这不是可以用蛮力工程构建的东西,”Tran指出。“它需要大量的科学知识。”

构建新的食谱引擎需要两个并行项目:一个新的机器学习模型,用于从数百万个在线食谱中筛选和选择食谱;以及一个新的推理引擎,用于确保Alexa收到的每个请求都附有去除了身份标识的个人和背景数据。“我们将其分解,就像任何其他构建软件的过程一样,”Tran说。“我们写下了计划,确定了任务,然后决定每个任务最适合由科学家还是工程师处理,或者可能是两者共同合作处理。”

Tran说,团队中的科学家主要专注于机器学习模型。他们首先研究了所有现有的、公开可用的食谱推荐机器学习方法——对模型类型进行分类,并根据他们认为性能最佳的方式进行筛选。“科学家们研究了许多不同的方法——贝叶斯模型、基于图的模型、跨领域模型、神经网络和协同过滤——并最终确定了一组他们认为最适合我们尝试的六种模型,”Tran解释说。“这帮助我们快速缩小了范围,无需详尽地尝试每一种可能的模型方法。”

与此同时,工程师们开始设计和构建新的推理引擎,以更好地捕捉和分析用户信号,包括隐式信号(例如,一天中的时间)和显式信号(例如,用户是请求晚餐还是午餐食谱)。“你不会想在早餐时间推荐鸡尾酒食谱,但有时人们想吃煎饼当晚餐,”Tran开玩笑说。

推理引擎的构建必须能够处理来自现有用户和从未请求过食谱推荐的新用户的查询。性能和隐私是关键要求。工程团队必须设计和部署该引擎,以优化吞吐量,同时最小化计算和存储成本,并遵守客户删除其历史记录中个人信息的要求。

一旦新的推理引擎准备就绪,工程师们将其与科学家构建和训练的六个机器学习模型集成,连接到设计团队构建的新前端界面,并让这些模型相互测试以比较结果。Tran说,与基线推荐相比,所有六个模型都提高了转化率(“转化事件”在用户选择推荐食谱时触发),但其中一个模型的表现比其他模型高出100%以上。团队选择了该模型,该模型目前已投入生产。

不过,食谱项目并未就此结束。既然它已上线并投入生产,就有了持续改进的过程。“我们一直在从客户行为中学习。哪些是客户非常满意的食谱?哪些是他们从不选择的?”Tran说。“工程师和科学家之间也在继续合作,以完善解决方案。”

未来:由科学驱动的Alexa工程

为了进一步加速Alexa的创新,某机构成立了Alexa Principal Community——一个由数百名工程师和科学家组成的矩阵式团队,他们致力于Alexa及Alexa相关技术的研究和贡献。“我们公司各个部门的人都参与其中,无论他们向谁汇报,”Tran补充道。“将我们凝聚在一起的是我们共同致力于Alexa背后的技术,这真是太棒了。”

今年早些时候,该社区的100多名成员通过线上和线下方式齐聚一堂,分享、讨论和辩论Alexa技术。“作为社区小型领导团队的一员,我主持了几场会议,但我主要是在那里学习、交流并影响我的同行。”

Tran非常享受与科学家们一起工作,他觉得自己从合作中受益匪浅。“与众多科学家密切合作,帮助我了解最先进的人工智能能够做什么,这样我就可以在我设计和构建的系统中利用它。但他们也帮助我了解它的局限性,这样我就不会高估它,并试图构建一些在现实时间框架内根本无法实现的东西。”

Tran说,现在是加入Alexa的最佳时机。“人们的想象力和我们客户群的想象力已被解锁,”他说。“所以他们的下一个问题是,‘Alexa将走向何方?’我们正在尽最大努力为客户带来新功能。我们正在筹备很多事情,以使其成为现实。”FINISHED