现代数据团队与分工

2,428 阅读6分钟

在刚入行的时候曾经写过一篇文章「数据专案团队组成」,当时把数据团队根据技能分成数据科学家、数据分析师和数据工程师三种角色。不过在工作几年之后,发现实务上的数据分工其实更细而且更复杂,也隐含了更多的可能性。这一篇文章将谈谈实务上的数据团队分工。

不同的技能与分工

首先我们先依照技能与工作简单分成三种类型:

https://news.efinancialcareers.com/uk-en/3001517/data-science-careers-finance

  1. 擅长 #分析应用 的: 数据分析师(Data Analyst)
  2. 擅长 #程式实作 的: 数据工程师(Data Engineer)
  3. 擅长 #模型理论 的: 数据科学家(Data Scienist)

换句话说,他们分别是「看数据」,「调数据」以及「玩数据」。不过实际上的分工与职能其实会更加复杂一点,有几种常见的状况:

  • 数据科学家与数据工程师中间的 GAP
  • 模型「部署/上线」的工作谁来做?
  • 「数据分析师」与「商业分析师」

数据科学家与数据工程师中间的 GAP

在擅长模型数据科学家与擅长程式数据工程师之间,会有一小段的重叠的范围。通常的合作方式会由数据科学家训练出一个好的模型,再由数据工程师呼叫使用。不过偶尔会有部署所导致的效能或是或是需要再调整的工作。当模型遇到问题的时候,会有两端都难以解决的状况出现。

https://www.oreilly.com/radar/data-engineers-vs-data-scientists/

因此,我们会把兼顾模型理论和程式实作的人抽出来定位成「ML 机器学习工程师」,他们通常熟悉用程式操作模型的部分。

模型「部署/上线」的工作谁来做?

另一个常见的情境是,最终将模型交由工程师部署上线之后。可能会遇到重要的错误出现或需要周期性的更新时,往往都会需要整个流程重新跑一次。在传统的开发模式当中,会有维运的工程师负责从开发到上线自动化的融合成一系列的工作线。这样的想法转移到数据科学的情境当中,被称为是 MLOPs 机器学习维运工程师,主要概念是将模型的训练与部署更加紧紧的自动化。

https://medium.com/ki-labs-engineering/feature-engineering-automation-and-evaluation-part-1-a34fb42e0bd4

「数据分析师」与「商业分析师」

「数据分析师」也是数据产业中一个重要的职能之一,而且这个位置在数据科学热潮之前就存在已久。数据分析师从数据技能的角度来看,会有一部分内容跟数据科学家重叠。我觉得从使用场景来看,可以明显看出差异。数据分析师比较强调的是「如何找到适合数据可以解决的问题」,对数据理解与定义问题的敏锐度。就我所知,数据分析师在数据探索及数据视觉化的要求会高一点。而数据科学家则更重视模型与理论,需要比较完整的数据知识体系,例如统计,最佳化及数据模型这方便的了解。

以往我们可能会用「程式力」或「数学力」将数据分析师的下一步切分成「数据工程师」或「数据科学家」,不过其实还有一种选择 - 「商业分析师」。商业分析师更强调的是如何用数据来解决的商业的问题,找到一个适合数据方法切入的应用场景。对于商业分析师来说,对数据与商业都须需要有一定的敏感度。数据科学很多时候是以理论的角度切入最佳化,可能与商业应用目的不完全相同,「商业分析师」能够在其中扮演转译的角色。

不同背景的养成路径

只要有心,人人都可以成为数据科学家。数据科学是一个跨领域的技能,需要同时有跨域的能力与开放的思维。这边列出了一些常见的背景,与适合的养成路径:

http://educlasses.co.in/data-scientist-vs-data-engineer-vs-data-analyst-comparison.html

如果你本来就是软体工程师的话,可以从程式需求大的数据工程师开始。统计/数学背景的话,适合研究数据科学模型。另外大部分的话,就会建议从数据分析师的起点逐步规划。

数据团队与分工

最后我们将以上讲的各种位置,用数据科学的工作流程对应:

实际上数据专案需要的是一支团队,一般会将数据科学的技能拆成多个不同的职缺。经过完善的各司其职可以完成强大的工作,达到明确的守备范围。不过理想很丰满、现实很骨感,在许多小团队当中都会先配备一个角色打全场:

数据专案需要的是一支团队

要完成一个好的数据专案,靠的不能只是一个厉害的强者,需要的是一支合作无间的数据团队。跨领域的整合也是一个重要的应用关键。无论数据的多寡,数据专案都是建基在资讯、统计、视觉化等不同的领域专业上面。不过现实层面上来说,很难有人可以同时具备那么多能力,因此在数据专案中更需要团队合作。

根据公司的业务需求与应用层级,打造一个最适合的数据团队才是王道。


嗨,你好,我是维元,持续在不同的平台发表对 #资料科学、 #网页开发 或 #软体职涯 相关的文章。如果对于内文有疑问都欢迎与我们进一步的交流,都可以追踪我的Facebook 粉专:资料科学家的工作日常 ,也会不定时的举办分享活动,一起来玩玩吧ヽ(●´∀`●)ノ

在大数据时代下,资料收集与程式爬虫你已经是基本的数位技能!最近正在计画【超新手也能用Python 爬虫打造货比千家的比价网站】的线上课程,实现一键极速收集海量资料,手把手带你打造比价网站。​从资料收集、资料整理到最终的部属展示,将海量数据转化为可视化的图表,并结合网站实作,实现真正的落地运用​ 🚀🚀🚀

📍 填问卷即可抽免费课程: pse.is/3fyr4n
📍 填问卷即可抽免费课程: pse.is/3fyr4n
📍 填问卷即可抽免费课程: pse.is/3fyr4n