内部挑战赛如何激发亚马逊机器学习创新文化一位亚马逊首席科学家分享其组织内部机器学习挑战赛的经验，阐述如何通过比赛促进跨团

培育创新文化

一位亚马逊首席科学家描述了内部挑战赛如何促进了公司科学家之间更深层次的协作与社区意识。

作者：Andrew Borthwick

编者按： Andrew Borthwick 是亚马逊的首席科学家；他领导一个团队，专注于在亚马逊庞大的产品目录上实现自动机器学习的挑战。在本文中，他分享了帮助组织公司年度内部机器学习会议中一项挑战赛的经验。该会议汇聚了来自公司各地的数千名科学家和工程师，展示他们的工作，与同行交流，并提升公司内部的科学水平。去年秋天有超过4000名科学家和工程师参加了线上虚拟会议，有机会观看主题演讲、口头论文和海报展示，以及参加研讨会、培训课程和其他活动。在本文中，Borthwick 分享了帮助组织会议挑战赛活动的经验，并深入阐述了尽管公司对科学与工程采取高度去中心化的方式，但如何仍能促进科学家之间的协作和社区感。

亚马逊在机器学习方面拥有海量的创新。事实上，创新之多，以至于很难追踪到各个团队中涌现的所有好点子。为了帮助亚马逊人推动技术前沿发展，我们每年都会举办一次内部亚马逊机器学习会议（AMLC）。该会议的结构类似于知名的学术会议，设有论文同行评审流程，且录用标准很高。

我在亚马逊从事机器学习工作已有六年，多次担任 AMLC 论文的审稿人和元审稿人。尽管审稿是一个激发思考的机会，让我看到了亚马逊内部机器学习研究的极大多样性，但有时在判断一个想法的价值时，我也会感到困扰。

亚马逊以其“两个披萨团队”的文化而闻名。我们试图将亚马逊非常庞大的规模分解成一个个工作模块，这些模块可以由小到两个披萨就能喂饱的团队来攻克（实际上这些团队通常规模在五到八人，所以披萨肯定得是大号的）。每个团队可以专注于他们瞄准的机会，做到客户至上。在机器学习领域，这有一个主要优势，即让我们能够保持敏捷——我们不必花太多时间与其他团队协调——因此团队可以自由地尝试各种方法。这种方法的缺点在于可能导致重复劳动，以及无法识别出最佳的科学方法。

我经常审阅一些论文，它们展示的数据表明，某个团队相较于之前的方法大大提高了其机器学习算法的准确性，并交付了显著的客户价值。这听起来不错，但亚马逊的领导力准则之一是我们要“坚持最高标准”。我会反问自己，“是的，这篇论文描述的内容很棒，但这难道是这里能做到的最好水平吗？”当有两个独立的双披萨团队在处理非常相似的挑战时，这个问题最为突出。

我的专业领域之一是数据库中的记录链接，这促成了我在 AWS Lake Formation FindMatches 上的工作。我们在这个领域正在进行一些非常有趣的科学研究：一个团队致力于在亚马逊产品目录中查找重复项，而另一个团队则致力于识别互为变体的产品集（例如，当购买 Amazon Essentials 圆领T恤时，会在同一个页面上看到所有不同的颜色和尺码）。这些问题很相似，因为客户可能想查看两个产品是否“匹配”，但在一种情况下，他们寻找的是“完全匹配”，而在另一种情况下，他们想要找到“忽略颜色和尺码差异后相互匹配的产品”。

我们在机器学习分类问题上也遇到了类似的情况。一个双披萨团队正在解决将亚马逊产品分类到面向客户的产品类型中的问题（例如“女式运动鞋”）。与此同时，另一个团队正在将项目分类到某些出于销售税目的而有特殊处理的类别中（例如“酒精饮料”或“童装”或“食品”或“药品”）。亚马逊音乐也遇到了类似的问题，需要将音乐曲目按流派分类（是“假日音乐”、“器乐爵士乐”还是“弦乐四重奏”？）。

这些团队都在致力于将项目分类到数量相当大但固定的类别中，这在机器学习中被称为“k路分类”。被分类的项目（无论是产品还是音乐曲目）具有许多不同的属性，这些属性属于不同的数据类型，例如文本（产品描述、音乐曲目标题）、数值（ shipping_weight）、分类（颜色、尺码）和图像（产品图片或专辑封面），因此我们称之为“多模态表格数据的k路分类”。最后，每个团队都有大量带标签的记录，这些记录由亚马逊员工确定了正确的类别。我们将这一挑战称为“多模态表格数据的监督式k路分类”——这是机器学习中一个非常重要但研究不足的问题。

当这些团队各自向亚马逊机器学习会议提交描述其成果的论文时，问题就出现了。作为审稿人，我必须解决的问题是：“谁的算法更好？”以及“另一个双披萨团队正在处理一个非常相似的问题。如果他们在自己的数据上使用另一个团队的算法，结果会怎样？”

这些问题促使我和我的一些机器学习同事组织了一场内部的“多模态表格数据大挑战赛”。组织这样的比赛是一项艰巨的任务，但在全球机器学习社区中有类似的先例。我们的第一个项目是从亚马逊各个双披萨团队那里收集并整理k路分类和匹配数据集。

接下来，我们召开了一次启动会议，宣布比赛和奖品（在匹配任务和分类任务上平均表现最佳的选手，将获得1000美元的亚马逊礼品卡）。比赛持续了四个月，有超过50个团队提交了成果，并在去年十月的AMLC会议上举办了一场研讨会作为高潮。在研讨会上，匹配和k路分类挑战中排名前三的团队描述了他们搭建的系统。

在反思这次挑战赛时，我们发现了许多积极的效果：

比赛是一项有趣的活动，吸引了超过50个团队和100多名参与者。许多参与者热情高涨，对不同比赛进行了数十次尝试。
由于尊重等级和头衔并非亚马逊的领导力准则之一，挑战赛将所有级别、地点和职位的参与者都置于平等地位。
组委会面临的关键挑战之一是需要根据相同的约定标准化所有不同任务的数据（例如，我们使用相似的模式，以两种流行的格式——.csv和.parquet——提供所有数据）。这些数据现在可用于亚马逊未来的研究项目，从而用于未来提交给会议的论文。
排名前六的解决方案中有两个大量使用了 AWS 新开源的自动化机器学习工具包 AutoGluon，其中就包括一名大奖得主。这些挑战赛参赛者的想法也反哺了 AutoGluon 工具包，特别是在改进 AutoGluon 处理表格数据集中文本列的能力方面。
研究人员从中受益，因为这些数据集比公共领域的大多数数据集更复杂，更能代表现实世界的问题。特别是，研究人员很难获得那些正确决策依赖于复杂文本、图像、数值和分类属性组合信号的数据集。
更广泛地说，这次挑战赛有助于鼓励处理类似问题的不同双披萨团队进行更紧密的团队合作。我参加过多次会议，与会团队正在处理挑战赛中的某个任务或与其中某个任务类似的问题，我们在会上讨论了如何利用获胜团队的经验教训。
最后，对我个人而言，这次挑战赛促使我加入了亚马逊选品与目录系统团队，该团队是这个项目数据的主要贡献者之一。在这里工作的一大好处是有机会转到一个你充满热情的团队。

研究领域
机器学习

标签
亚马逊云服务 (AWS)
AutoGluon
在亚马逊工作	FINISHED