2021年MLOps的状况

126 阅读7分钟

不仅仅是炒作。许多团队正在接受MLOps

图片来源:Richard HorneonUnsplash

人口统计学

对于2021年的MLOps状况调查,我们从Velohai社区收集了100份回复。虽然Velohai提供的产品与MLOps有关,但我们发布的内容更广泛地与数据科学有关。

从地域上看,受访者主要来自欧洲、美国、印度和中国。27%的受访者在技术领域工作,其次是金融服务(14%)、咨询(12%)和医疗保健(12%)。虽然技术部门的范围太广,无法提供深刻的见解,但我们的传闻与金融和医疗行业大量参与MLOps场景并拥有成熟的机器学习计划相一致。然而,这两个行业也有独特的挑战,需要MLOps来解决,即围绕透明度、隐私和安全的监管。

角色

受访者中最大的群体是数据科学家,占30%,这一点并不令人意外。其次是18%的ML工程师,18%的其他,以及16%的数据科学领导人。令人惊讶的是,数据工程师所占比例相当低,只有6%。

你的头衔是什么?

图片由作者提供

我们从以前的研究和在线讨论中发现,数据科学中的头衔和角色目前还远未固定。因此,我们问了一个相关的问题,什么最能说明受访者的角色,35%的受访者回答说他们的重点是建立模型和基础设施。相比之下,更小的群体可以专注于一个或另一个(15%只建立模型,14%只建立基础设施)。

哪一个最能描述你的角色?

图片由作者提供

我们注意到,我们围绕角色定义(即数据科学家与机器学习工程师)发布的内容似乎引发了大量的争论,而这些结果似乎证实,这些角色绝非一目了然。例如,一家公司的数据科学家可能对建立基础设施和设置工具至关重要,而在另一家公司,这项任务是由更专业的工程师来完成的。

哪一个最能描述你的角色(仅限集成电路角色)?

图片由作者提供

然而,如果我们只关注三个答案(不包括领导团队和上述任何一项),并比较2020年的结果,我们可以看到专注于建设基础设施的群体的增长。虽然最多只是一个微弱的信号,但总体上可能有一些专业化的情况发生。

团队

机器学习相关的角色仍然很广泛,原因可能在于大多数涉及机器学习的团队都相对较小,没有专业化的空间(至少现在还没有)。我们问你的组织中有多少员工从事机器学习或数据科学工作,绝大多数人的答案是2-10人(56%)。即使在拥有1000多名员工的公司中,11-30名员工从事ML工作也是最常见的答案。

你的公司有多少员工?

图片由作者提供

贵公司有多少员工在从事数据科学或机器学习?

图片由作者提供

未来研究的一个令人兴奋的领域可能是数据科学团队的重要性(在公司规模的背景下)、机器学习的成熟度和财务成功之间的关系。一批新生的公司正在围绕机器学习建立其价值主张。看看这些组织是否从根本上更好地结构化,以授权建立人工智能能力,这将是有趣的。

你期望你的团队在未来3个月内有什么变化?

图片由作者提供

不过,更直接的是,机器学习领域正处于大规模的招聘热潮中。事实上,65%的受访者预计他们的ML团队在未来三个月内会增长,而只有2%的人预计团队会缩减。

重点领域

和去年一样,我们问受访者未来三个月的重点是什么(最多三个选择)。结果再次显示,机器学习模型的产品化取得了重大进展。

你未来三个月的重点是什么(最多三个选择)?

图片由作者提供

监测生产中的模型比去年有最明显的增长(13%到31%)。支持这种热情的是监测领域内大量的工具,它们的地位上升了(包括Arize、Fiddler、superwise.ai等)。

模型的自动化再训练也有类似的受欢迎程度(比2020年翻了一番),30%的受访者专注于为此目的建立机器学习管道。虽然绝非详尽无遗,但结果支持团队在过去一年中向MLOps迈进,而实施机器学习系统(而不是项目)是最重要的。

这也被 "证明机器学习的潜力 "的减少所支持,因为它通常表明建立第一个机器学习的概念证明。在过去的一年里,优化模型也似乎在优先级上有了明显的退步。

工具化

工具是在实践中实施MLOps的一个重要部分。在调查中,我们问受访者他们有哪些工具,他们希望(在未来三个月内)实施哪些工具,以及哪些是目前不相关的。有很多拼接MLOps工具的方法,而且都不倾向于与现有工具保持一致。如前所述,市场上有广义和狭义的解决方案,它们适合不同的目的。

作为调查的基础,我们使用了我们的MLOps堆栈蓝图,其中包含以下部分:数据分析、实验、特征存储(或训练数据管理)、代码库、机器学习管道、元数据存储、模型服务和模型监控。

今天,你在哪些方面已经建立了工具?

图片由作者提供。总数低于100%,因为某些参与者选择不回答。

看看那些已经建立了工具的领域,代码库脱颖而出。考虑到Git已经成为软件开发的标准超过十年,数据科学家也已经采用了它,这一点并不奇怪。此外,数据分析(68%)和实验(56%)也相当成熟。

在产品化方面,50%的受访者认为他们有足够的工具用于机器学习管道,33%的受访者在未来几个月内正在寻找解决方案。模型服务分为39%和39%。

受访者对新解决方案最感兴趣的领域是模型监控(52%)、模型注册表(43%)和特征存储/训练数据管理(41%)。与已经拥有监控解决方案的受访者相比,寻找监控解决方案的受访者人数多了一倍。

总的来说,在实验方面,工具化的建立要多得多,而产品化则较少。然而,考虑到 "目前不相关 "是几乎每个组件中相对较小的一块,在采用工具化方面似乎并不犹豫。

总结

数据科学领域在MLOps和机器学习模型产品化方面的整体情况是一个没有好答案的问题。然而,2021年MLOps状况调查为我们提供了令人鼓舞的证据,即生产中的机器学习正在加速发展--而且不仅仅是在头条新闻中,而是在行动中。

调查结果只代表了我们社区的一小部分,所以自然会有偏差,但对于希望投资MLOps工具的决策者或希望深入研究MLOps的个人贡献者来说,这一趋势看起来令人鼓舞。

原文发表于 https://valohai.com.


The State of MLOps 2021最初发表于Towards Data Scienceon Medium,在那里人们通过强调和回应这个故事继续对话。