促进创新文化
一位某中心的首席科学家描述了内部挑战赛如何促进公司科学家之间更深入的合作和社区意识。
编者按:Andrew Borthwick是某中心的首席科学家,他领导一个团队专注于在中心广泛产品目录上实现自动机器学习。在这篇文章中,他描述了帮助组织公司年度内部机器学习会议中挑战赛的经历,该会议汇集了来自公司各处的数千名科学家和工程师,展示他们的工作,与同行交流,并提升公司科学质量。
在某中心的机器学习领域存在着大量创新。事实上,要跟踪团队间涌现的所有酷炫想法可能很困难。为了帮助中心员工推动技术前沿发展,每年都会举办内部机器学习会议(AMLC)。该会议的结构与知名学术会议类似,设有论文同行评审流程,并设有较高的接受标准。
在某中心从事机器学习工作已有六年,曾多次担任AMLC论文的评审和元评审。虽然评审论文是一个激励人心的机会,让我能够看到中心机器学习研究的巨大多样性,但有时在评估某个想法的价值时会感到困惑。
某中心以"两个披萨团队"文化闻名。试图将中心的巨大规模分解成可以由一个小团队完成的工作块(实践中这些团队通常为五到八人规模)。每个团队都可以专注于他们瞄准的机会。在机器学习中,这具有主要优势,使我们能够灵活敏捷——不需要花费太多时间与其他团队协调——因此团队可以自由尝试不同方法。这种方法的缺点在于可能导致工作重复,无法确定最佳科学方法。
经常评审一些论文,其中某个团队大幅提高了机器学习算法相对于之前方法的准确性,并提供了重要的客户价值。这听起来不错,但中心的领导原则之一是"坚持最高标准"。会自问:"这篇论文描述的内容很棒,但这是能做到的最好结果吗?"当不同的两个披萨团队处理非常相似的挑战时,这个问题最为突出。
专业领域之一是数据库记录链接,这导致了在AWS Lake Formation FindMatches上的工作。在这个领域正在进行一些非常有趣的科学研究:一个团队致力于在某中心产品目录中查找重复商品,而另一个团队致力于识别彼此是变体的产品集合。这些问题相似之处在于客户可能想查看两个产品是否"匹配",但在一种情况下他们寻找"精确匹配",而在另一种情况下他们想找到"忽略颜色和尺寸差异后匹配的产品"。
在机器学习分类问题上也遇到了类似问题。一个两个披萨团队致力于将某中心产品分类到面向客户的产品类型(如"女性运动鞋"),同时另一个团队将商品分类到有时因销售税目的而有特殊处理的类别(如"酒精饮料"或"儿童服装"或"食品"或"药品")。某中心音乐在将音乐曲目按流派分类时也有类似问题(是"假日音乐"还是"器乐爵士"或"弦乐四重奏"?)。
每个团队都在将物品分类到相当大但固定数量的类别中,这在机器学习中被称为"k路分类"。被分类的物品(产品或音乐曲目)具有许多不同数据类型的属性,如文本(产品描述、音乐曲目标题)、数值(运输重量)、分类(颜色、尺寸)和图像(产品图片或专辑封面),因此这被称为"多模态表格数据的k路分类"。最后,每个团队都有大量标记记录,其中中心员工已确定正确类别。将这个挑战称为"多模态表格数据的监督k路分类"——这是机器学习中非常重要但研究不足的问题。
当这些团队各自向某中心机器学习会议提交描述其结果的论文时,问题出现了。作为评审需要解决的问题是:"谁的算法更好?"和"另一个两个披萨团队正在处理非常相似的问题。如果他们在自己的数据上使用另一个团队的算法会发生什么?"
这类问题促使一些机器学习同事和我组织了一个内部"多模态表格数据重大挑战"。组织这样的竞赛是一项重大任务,但全球机器学习社区中有类似例子。第一个项目是从中心各处的两个披萨团队收集和组织k路分类与匹配数据集。
接下来召开了启动会议,宣布竞赛和奖品(匹配任务最佳平均性能和分类任务最佳平均性能各奖励1000美元中心礼品卡)。
竞赛本身持续了四个月,有50多个团队提交结果,并在去年10月的AMLC上以研讨会告终。匹配和k路分类挑战中排名前三的团队在那里描述了他们的系统。
反思挑战赛,发现了许多积极影响:
- 竞赛是一项有趣的活动,有50多个团队和100多名参与者参加。许多参与者热情地尝试了不同竞赛数十次。
- 由于对等级和头衔的敬畏不是中心的领导原则,挑战赛使所有级别、地点和职位的参与者都处于平等地位。
- 组织委员会的主要挑战之一是需要根据相同约定标准化所有不同任务的数据(例如,我们以两种流行格式——.csv和.parquet——提供具有相似模式的所有数据)。这些数据现在可用于未来的中心研究项目,从而用于未来提交给会议的论文。
- 前六名解决方案中有两个大量使用了AWS新的开源自动机器学习工具包AutoGluon,包括一位大奖得主。这些挑战参赛者的想法也反馈到了AutoGluon工具包中,特别是在提高AutoGluon处理表格数据集中文本列的能力方面。
- 研究人员受益,因为这些数据集比公共领域中的大多数数据集更复杂,更能代表现实世界问题。特别是,研究人员很难获得那些正确决策取决于从复杂文本、图像、数值和分类属性组合中得出的信号的数据集。
- 更普遍地说,挑战赛有助于鼓励处理类似问题的不同两个披萨团队之间更紧密的团队合作。参加了许多与处理挑战赛中任务或类似问题团队的会议,讨论了利用获胜团队学习成果的想法。
- 最后,对个人而言,挑战赛促使加入了某中心选择和目录系统团队,该团队是项目数据的主要贡献者之一。在这里工作的伟大之处在于有机会转换到充满热情的团队。
研究领域
机器学习
标签
AWS、AutoGluon、工作文化