顶尖学者展望机器学习前沿技术

3 阅读6分钟

某机构年度机器学习大会:聚焦技术前沿,驱动业务创新

本月初,某机构成功举办了第九届年度内部科学大会。本次大会旨在展示机器学习在其各项业务中的应用进展,并促进公司科学社区内的深度协作。活动邀请了五位顶尖学者发表主题演讲,并安排了口头报告、海报展示、技术教程和研讨会等多种形式的交流。

大会执行发起人、赞助产品与效果广告技术副总裁Muthu Muthukrishnan为会议致开幕词,Alexa AI自然理解副总裁Prem Natarajan随后发表了开幕主题演讲。Muthukrishnan在开幕词中表示:“本次大会对于拓展机器学习在某机构的未来发展起着至关重要的作用。” Natarajan补充道,某机构科学社区的成长证明了“机器学习正广泛应用于公司各个领域,为客户创造着日益增长的价值。”

以下是五位特邀学术嘉宾的精彩分享摘要,完整演讲视频亦面向公众公开。

Yoshua Bengio:用于生成式主动学习的GFlowNets

摘要:我们探讨以下场景:一个机器学习系统可以与一个昂贵的“预言机”(即“真实世界”)进行交互。系统通过迭代地提出批量候选实验,并获取每次实验的得分(“效果如何?”)。多轮查询与结果的数据可用于训练一个“预言机”的代理模型,即一种世界模型。随后,我们可以查询这个(比真实世界模型便宜得多的)世界模型,以在“硅基”环境中训练一个提出实验方案的生成模型,从而形成下一轮的查询。能够良好执行此任务的系统可应用于交互式推荐、新药发现、新材料研发、流程控制,乃至学习推理和构建因果模型。这涉及诸多有趣的机器学习研究课题,包括主动学习、强化学习、表示学习、探索、元学习、贝叶斯优化和黑盒优化。那么,这个生成模型的训练准则应该是什么?为什么不直接使用蒙特卡洛马尔可夫链方法来生成这些样本?我们能否克服MCMC方法在模式混合上的局限性?生成模型如何在尚未尝试之前就能推测出潜在的良好实验?世界模型应如何构建其认知不确定性的表示,即预测自身在哪些区域表现良好或不佳?在解答这些问题的过程中,我们将引入一个名为GFlowNets的、令人振奋的新型深度学习框架。该框架能够分摊通常由MCMC完成的、将能量函数转化为样本的巨大计算成本,并为概率建模开辟了全新的可能性,包括快速估计边缘化概率以及高效表示集合和图上的分布。

Rama Chellappa:机器学习中的开放问题

摘要:在本次演讲中,我将简要回顾我的团队近期在构建基于深度学习的人脸识别和行为识别 operational 系统方面的工作。尽管我们可以宣称取得了合理的成功,但仍有许多开放问题亟待解决。这些问题包括:偏差检测与缓解、领域自适应与泛化、从无标签数据中学习、应对对抗性攻击,以及在mini-batch学习中选择最优的训练数据子集。我将总结我们最近在应对这些挑战方面所做的一些工作。

Thomas Dietterich:面向分布外与新型类别检测的异常检测

摘要:每一个部署的学习系统都应伴随一个能力模型,该模型能够在新的查询超出其能力范围时进行检测。本次演讲将探讨如何应用异常检测技术,为深度学习中的目标分类任务提供能力模型。我们考虑了两种对模型能力的威胁:分布外查询和对应新类别的查询。演讲将回顾异常检测的四种主要策略,并随后调研近期发表的一些用于深度学习的异常检测方法。其核心挑战在于学习一种能够为异常情况分配独特表示的表示方法。演讲最后将讨论如何在没有标记异常数据的情况下,设定异常检测阈值以达到期望的漏报率。

Mirella Lapata:基于转折点的电影自动分析与摘要生成

摘要:电影分析是一个总称,涵盖了旨在自动解读、提取和总结电影内容的多种任务。其潜在应用包括为制片公司的决策过程生成剧本精简版、增强电影推荐引擎,以及特别值得关注的——生成电影预告片。在本次演讲中,我将介绍“转折点识别”这一任务,作为分析电影内容的一种手段。根据编剧理论,转折点(如计划改变、重大挫折、高潮)是电影中至关重要的叙事时刻:它们定义了电影的情节结构,决定了其发展进程,并将其分割成不同的主题单元。我认为,转折点及其提供的分割信息,有助于分析像剧本这样长而复杂的叙事结构。我将进一步把生成电影精简版的任务形式化为识别包含转折点的场景的问题,并提出一个基于语言和视听信息的图神经网络模型。最后,我将讨论将剧本表示为(稀疏)图的形式如何提供可解释性,并揭示不同电影类型的形态结构。

Christopher Manning:从大型预训练语言模型发现语言结构到基础模型

摘要:我首先将简要概述自然语言处理领域近期的巨大变革,即以BERT为代表的大型预训练Transformer语言模型的兴起,以及这些模型在NLP任务上的卓越表现。随后,我将重点聚焦于我所研究的两个特定方面。首先,我将展示,尽管仅使用了简单的自监督任务,但像BERT这样的模型不仅能学习词语关联,还能充当语言结构发现装置,捕捉诸如人类语言句法和代词共指等结构信息。其次,我将强调,近期的进展是以巨大的计算成本为代价的,并探讨ELECTRA模型。在该模型中,一种替代性的判别学习方法能够以显著减少的计算量构建出高效能的神经词表示。最后,我将介绍大型预训练模型如何正在被扩展为更大一类的基础模型,这是一个前景广阔但也伴随风险的方向,以及我们期望如何在斯坦福大学为其探索做出贡献。


研究领域

机器学习

标签

主动学习 | 异常检测 | 深度学习 | 图像分割 | 自然语言处理FINISHED