数据科学项目管理手册(二)
六、促进您的数据科学工作
在前几章中,我们已经看到了开展一个有用的数据科学项目的机会,确认了客户实施结果的意愿,并确保了预期结果的实现。在本章中,我们将探讨如何确保您到目前为止所做的努力在您的组织内外得到认可。这种认可可以成为获得和从事更激动人心的工作的重要资本。
我们已经看到了让人们的注意力被允许开始和实施项目的重要性。如果你认为这就足够了,那也是情有可原的——你说服了某人让你为他们建造一些东西,并交付了货物。
不幸的是,这只是故事的一部分。你不能指望人们认识到他们得到的好处,也不能依靠口口相传让他们知道。你必须对人们理解你所做的事情的价值负责。
这有几种不同的模式。一种模式是记录你自己组织内部发生的事情,并让人们知道它发生了。另一个是与组织外的人或你不熟悉的人交流。
人们通常首先想到与组织外部的世界沟通,因为这是促进销售的因素。这并不意味着,如果你主要是在试图从内部改善一个组织,你不应该以非常相似的方式沟通。事实上,我们会看到,结构和内容从一种情况转移到另一种情况相当好。
这可能比联系你自己组织里的人更困难。首先,外界的人不太可能意识到你的存在,也不太可能认为你在做对他们有价值的事情。我们将讨论的下一个工具背后的想法是通过免费提供一些信息来抓住他们的注意力。以这种方式提升专家的工具是白皮书。向你自己组织中的人传达这个信息应该更容易。他们在和你一样的四面墙内工作,所以你有一些面对面接触他们的能力。对于这种情况,最好的办法是你可以直接谈论你的工作,我们将在本章的后面讨论如何从中获得最大收益。
数据科学白皮书
让人们知道你做了什么的一个关键方法是写一份白皮书。白皮书是一份营销文件,旨在展示作者在特定领域的专业知识。
在写白皮书时,作者通常会试图解释他们是如何用自己的专业知识解决问题的,或者教授他们所在领域的一些基本方面,目的是帮助读者了解什么时候该给专家打电话。因此,一个商人可能会分享一些关于一些非常小的工作的提示,导致读者应该打电话给专业人士。
互联网上有很多写白皮书的指南,通常包括结构指南。它们有足够多的种类,你可以选择最适合你需要的一个,所以看看几个,选择一个你自己认为有意义的。首先是内容因素综合指南(白皮书本身,与其他好的示例白皮书一起放在一个网站上)和来自 Foleon.com 的指南 2 ,它提供了一些关于如何分发白皮书的指导,这些指导并不是在每个指南中都可以找到。
然而,在数据科学的情况下,有一个扭曲,即通常作者使用他们的数据科学专业知识来解决读者是专家的领域中的问题,而通常作者是该领域的专家,而读者不是。这对文档的组织方式以及如何接近读者有一个微小但明显的影响。
因此,你的第一个任务将是在读者的问题领域建立凭证,由于你在该领域不太可能比读者有更高的资格或经验,直截了当地提供你自己的凭证不太可能成功。相反,最好的方法可能是“展示,不要说”的方法,这在创意写作课上经常见到。
在这种情况下,它指的是让读者看到你的角色在行动和他们的故事展开,而不是写出他们的特点或概述情节。在这种情况下,它意味着以一种不怀疑其对该领域的重要性的方式解释你所处理的领域问题。
如果一个解决方案没有价值,你就不会去做它,所以解释价值在哪里——很多时候它会以这个问题成为更大目标的障碍的形式出现。总的来说,证明你了解问题如何影响他们的业务,可以让你赢得观众。
从很多方面来说,本文中的这个过程只是我在前面章节中介绍的建立信任之旅的一个简单概括。不同之处在于,这一次你没有与听众在房间里开始双向对话的优势——你必须预测一点听众可能的反应,以确保你到达那里。
一旦你确定了问题,故事的下一步将是你如何解决它。在数据科学的背景下,通常需要两种工具来获得解决方案——足够的数据集(“足够”是因为大多数数据集与我们的“理想数据集”相差甚远)和合适的分析工具。
鉴于如此多的数据科学工具都是开源的,数据集(如果不是处于原始状态,通常是在您对其进行清理和预处理之后)很有可能比竞争对手更具优势。
因此,提及数据获取或清理的方式可能有助于进一步建立可信度。如果您使用主题专家的建议来改进预处理过程,情况尤其如此,例如,如果存在与确定如何处理这些丢失数据的收集过程相关的丢失数据的原因。
当讨论所使用的算法时,这不仅仅是一个为非技术观众正确定制讨论的问题,还是一个节奏的问题。为了保持读者的注意力,白皮书需要有一个正在展开的故事的感觉和节奏;太多关于算法如何工作和你是如何做的细节会减慢速度,让读者失去兴趣。
至关重要的是,读者没有必要完全理解用来传达你的信息的算法。几乎可以说,对算法的任何描述都比它对算法如何工作的真实解释更有色彩和趣味。
将您的算法应用于数据代表了您的三幕故事中的第二幕,第一幕是理解问题和数据。在这里,解决方案本身可能不是卖点,虽然很重要。当您实施类似于预测模型的东西时,卖点通常是您在此过程中观察到的数据——关于变量相互作用方式的额外经验,或者关于哪些变量最有影响力或关系形状的惊喜。
尽管白皮书的焦点几乎总是在外部读者身上,但也有针对内部用户或不做区分的白皮书的空间。作为一名工程师,我为一位经理工作,他让团队维护一个以另一个名字命名的关于各种问题的白皮书库。它们既有利于直接向客户分发,也有利于让各种面向客户的员工了解情况。
你的白皮书会让人们记住你,并认为你是一个在他们的领域有用的人,如果你框架正确的话。接受数据科学解决方案的最大障碍之一是认为数据科学正在篡夺专家知识——白皮书提供了一个绝佳的机会来证明数据科学不是篡夺者,而是专家知识的补充。
谈论你的工作
对于内部受众,您可能有更多的机会接触到您的受众,因此您不局限于使用白皮书向您组织内的人宣传您自己(尽管我们稍后会看到,有时这可能是有用的)。
传播你所取得的成就的最好方式是面对面地做一个演讲或报告。回到第三章,我们从说服听众的角度看了成功的数据科学演讲的一些要素。
在这种情况下,说服显然是主要目标。你试图赢得那些决定是否继续你的项目的观众。你可能认为你已经过了那一关,可以轻松地进行推销,直接开始分发信息。
对于许多数据科学家来说,危险在于假设数据科学演示的目标完全或主要是传递信息。如果您正在向其他数据科学家的观众进行演示,以解释某个技术观点,这可能是真的。然而,这可能不是你做演讲时最常见或最重要的场景。
更常见的情况是,你需要说服人们你正在做的是一个好主意,或者让他们相信你的工作对组织产生了积极的影响。
这种推理回到了准备演示指南中经常提到的一点,无论是五步、六步还是八步(这是个人喜好的问题,就选择对你来说最有意义的一步,类似于白皮书指南),准备演示的第一步是考虑你的观众。
作为一名数据科学家,在对包括非数据科学家在内的观众讲话时,你不能假设你的观众接受你的工作有价值,你也不能假设你的观众对你的工作的价值有同样的概念,那就是你希望他们有的。
即使在工作完成后,你也需要继续销售收益。你还需要继续避免添加你的观众会发现无关的技术细节。
考虑到古老的机器和它运行的不合适的操作系统,你关于加速你的算法是多么困难的故事不会让非数据科学家观众兴奋。你的非数据科学家听众不会关心其他数据科学家对你在一个难以使用的编码平台上实现一种新算法所展示的技术才华有多印象深刻,这些听众不会理解它为什么令人印象深刻,你会在这些部分失去他们的注意力。
相反,他们会关心你的创新将如何减少他们做事所花的时间,或者它如何有助于确保他们所花的时间得到回报。通过坚持你的项目的这些属性,你将确保你的工作被整个组织记住。否则,你可能会发现自己只能向外部顾问解释公司数据仓库中不同表格的内容,这样他们就能赚到你工资的数倍,去做你睡觉时也能做的事情。
然而这一次,好处要么已经实现,要么即将实现。因此,对于流程的这一部分,重要的是要审查这些好处是否已经实现或可能实现。
尽可能坚持无争议的收获,否则你将面临在自己的会议中被挑战的风险。如果你成功地接受了挑战,你就冒着失去未来努力执照的风险,这显然违背了召开这种会议的目的。
在大多数情况下,收益足够大,不需要修饰,所以你要避免做出无法证实或会引起听众反感的声明。此外,通过提及尚未实现的收益来避免过度销售的诱惑,尤其是需要额外工作的收益。坚持目前发生的事情。
你多久做一次有一个甜蜜点。人们很乐意花几分钟时间来了解他们组织的其他部分,以及让他们的工作变得更容易的计划,但是这种练习经常变得有点太例行公事了。一年四五次大概是上限了。
然而,不到两次,你就会被遗忘,所以你要向自己承诺,通过记日记的方式,在你的部门内寻找适合与组织其他人分享的工作,来面对这些内部受众。
但是,如果你的组织很大,这实际上可能会转化为一年中两到三次以上的演讲,因为你可能会在不同的时间向不同的团体进行陈述。
向外界展示
许多数据科学家确实向小组、向他们自己组织之外的人展示他们的工作,例如向数据科学会议小组或他们所在领域的类似小组展示。原因通常是宣传您公司的数据科学团队是一个很好的工作场所,他们正在做有趣的工作。
更重要的是,通过根据你的工作创建一个演示文稿,思考如何让观众参与其中,并因此找出它的哪些方面会让观众参与进来,你就会发现你的工作哪些方面是重要的。
通过打破从特定项目的角度考虑工作的倾向,并思考适用于多个项目的共同经验,您可以进一步增强最后一个好处。这些可以是技术课程,例如,适用于特定工具的最佳实践,或者更以人为中心,例如在特定背景或特定情况下与客户交谈的最佳方式。
这也给了你一个很好的机会,通过观众或之后问你问题的人的问题来免费验证你的模型。虽然人们很可能是礼貌和鼓励的,但当他们有你不容易回答的问题时,你会知道他们找到了一个漏洞。
另一个好处是,当你想和一个友好的观众排练你的演讲时,很可能是由你的团队内部的人组成的,这是一个额外的机会来和那些人谈论你一直在做什么或者团队一直在做什么,并且是一个特别好的机会来讨论团队在单个项目的狭隘目标之外的工作。
同时,聚会的数量也是有限的,所以发言的机会也是有限的。幸运的是,你可以通过写博客获得很多同样的好处,尤其是如果你在像 Medium.com 这样的网站上发表文章,那里有相当数量的读者。
即使你不使用一个有大量观众的网站,他们也不会慷慨地发表评论,决定选择最好的项目或课程,然后从头开始向应该对你的组织一无所知的观众解释这些项目或课程的过程,将帮助你重新考虑你正在做的事情,并找到你的工作令人兴奋的新方式。
最后,在这两种情况下,其他数据科学家的观众会对你从外行观众那里得不到的技术成就给予称赞,如前一节所述。如果你想得到关于你的新技术解决方案的反馈,这些是找到它的主要途径。
创造历史
作为一名数据科学家,最棒的事情之一就是尝试许多不同的方法来解决问题。很自然,这些尝试中的许多将会是辉煌的失败,其中预期的问题没有得到解决,但是学到了可以在其他地方使用的东西。
许多也将是直接的失败,在那里你所学到的是建议的技术不是解决问题的正确方法,或者,至少,建议的解决方案需要太多的努力来证明其回报。如果你的组织不想每隔一年在每个问题上尝试相同的不合适的方法,这些是要学习的重要课程。
因此,如果你要确保人们不会一次又一次地尝试你失败的道路,你应该为你的失败感到骄傲,就像你为你的成功感到骄傲一样。听起来可能很奇怪,如果你正在做一件看起来不会有好结果的事情,想到公司会重复你的错误,比让你的同事知道他们发生的事情更令人尴尬。
为了确保别人不会步你的后尘,当你不希望他们这么做的时候,你需要坦率地说出什么有效,什么无效。同时,由于大多数时候你无法准确预测谁会重复你的错误,你需要以一种未来用户可以找到的方式保存这些信息。
这是项目文档的关键成果之一——记录对未来处于你的位置的人来说什么是有效的,什么是无效的,这个人可能是你,也可能是其他人。
您可以通过“经验教训”文档捕获项目的这一方面,这应该被视为任何数据科学工作的重要成果。
实际上,这些文档记录了你做了哪些尝试,哪些成功了,哪些失败了。然而,它们不同于实验室笔记本,因为它们是面向普通读者的,而不仅仅是作为个人备忘录。
因此,您需要仔细考虑如何构建您的帐户,以符合预期目的。在这种情况下,重要的是要切入正题,这样那些不在你身边、不了解你所做项目背景的人也能很容易地理解作为结果而学到的重要一课。尽可能地,留下商业案例的细节来完成工作——只要有足够的信息让人们理解你为什么在这个领域寻找。
■ Pro Tip
成功地创建一个关于以前工作的信息库,并很好地加以利用,可以成为一个实质性的竞争优势。例如,《麦肯锡之路》 3 的作者说,在麦肯锡工作的一大优势是能够访问麦肯锡在以前项目中所做工作的数据库。另一方面,在我的前几份工作中,我花了很多时间重新建立已经丢失的知识,我可以证明,简单地重新发明你知道的以前已经建立的东西不会让人期待周一。
关键的部分是同意将经验教训文件放在哪里,因为这些将是你的组织的企业记忆的重要部分——只要任何需要找到它们的人都能找到它们。您组织的网络对这样做可能是一件好事,也可能是一件坏事——只要放入共享驱动器,就很有可能看到它们被遗忘或找不到。使用 Git 存储库或类似的库更好,对于数据科学家的目标受众来说是可以接受的。然而,诀窍是避免将经验教训文档与它们所来自的单个项目过于紧密地联系在一起。
对于贵公司的非数据科学部门,最好通过更广泛的渠道传播信息。这些可能包括公司通讯。
在其中一些论坛中,你不会想太直接地提及那些没有如你所愿的事情。当你想报告一个没有按照你预期的方式进行的数据科学项目时,你需要改变它的最初目标。也就是从一开始就强调你发现的东西就好像是目标一样,让最初的目标作为次要目标出现。
文档的不同受众
经验教训文档最明显、最自然的受众是数据科学团队的其他成员。显然,他们最能直接受益于这样的知识,即在某些特定数据集上,在您的团队中流行的特定方法并不像预期的那样工作,或者其他类似的见解。
这并不意味着你忽略了撰写外行人也能理解的文件,尤其是对更高级的管理人员。如果你不能让管理层知道你学到了什么,你就冒了很大的风险,他们会要求你重复你已经做过的工作,而你知道这些工作不会达到预期的效果。
与此同时,高级经理和数据科学职能部门之外的其他人不太可能有时间或兴趣仔细研究每个项目的细节,以发现对他们来说最重要的经验教训。相反,你必须去找他们。
当您为这些受众准备文档时,您需要确保这些文档对他们来说是直观的,并且直接满足他们的需求。从引用内部数据集的意义上来说,本地化是很好的,或者用您的内部术语引用您组织的客户或产品线,但是技术方面必须与他们的理解水平产生共鸣。不要不好意思保持简单。
为了帮助确保需要技术细节的人可以阅读它们,而不需要的人可以避开它们,请仔细考虑文档的结构。通过将文档分成几个部分并用清晰的副标题标记出来,可以帮助人们找到他们最想阅读的部分。
最后,尽可能保持简短将最大限度地增加人们阅读足够多的内容来阅读你希望他们阅读的部分的机会。显然,你每增加一个额外的单词都会增加你的读者失去兴趣并停止阅读的风险。
这个建议的整体看起来可能非常熟悉。事实上,实际上,你在这里所做的实际上是为你公司内部的循环创建一个白皮书。
这些目标实际上惊人地相似,最初您可能没有意识到,但这些目标的一半目的是确保您和您的数据科学团队在早期被认为是可以帮助企业解决任何给定问题的人。这里的关键信息是,你可以帮助任何事情,你的回答将是有用的。
不同之处在于长度。当你写内部文件时,控制文件的长度是非常重要的。人们更倾向于假设外部白皮书有价值。这部分是因为人们知道外部白皮书的作者将他们视为潜在的收入来源,部分是因为人们感觉很难接触到白皮书的作者。如果你是他们每天都可以看到的人,或者认为他们可以在任何时候看到你,那就不太可能花力气去阅读你的论文——你最好让它简短易懂。
这个教训就是,如果你不经常提醒外部客户,你永远不会认为他们会继续看到你的价值,你也不能认为你的内部客户会自动看到你的价值。
摘要
实施并不是最终目的。你需要确保别人听到你的最佳成绩。你还需要确保你是传达项目失败时发生的事情的人,这样你就可以解释你学到的教训。
有书面和口头的方法可以做到这一点。为了推广你的工作,你可能希望写一份白皮书——如果写得好,你可以通过这种方式非常有效地吸引更多的工作。然而,重要的是要取得正确的平衡,当然也要确保你对你的读者慷慨大方。也就是说,你需要给读者有用的信息,而不是简单地推销你的产品。
记录你所取得的成就也很重要。人们可能会认为,面向其他数据科学家的文档是故事的结尾。您团队中的其他数据科学家可能知道去哪里寻找以前数据科学项目的信息。不要忘记的另一个群体是非数据科学家,特别是在许多情况下,这个群体包括可以让您重复您已经完成的工作的高级人员。
虽然白皮书被视为外部利益相关者的文档,但是您可以使用相同结构的简化版本来创建在您的公司内执行相同工作的内部白皮书。
对你来说会有更多的工作,但是如果你能够亲自向你的用户展示你的作品,那么对你的观众来说工作会更少。一般来说,人们会很高兴听到减少他们工作量的创新,所以他们热衷于参加你的演示,但在你安排会议之前,要确保结果是你声称的那样。
在这一整章中,一个重要的经验是从你的努力中学习尽可能多的东西,同时与尽可能多的人交流你所学到的东西。这些是建立数据科学团队品牌的一些最有用的初始步骤。
下一章将基于这一理念,探讨如何构建行为,帮助您的数据科学团队更有效地学习,同时更有效地发挥作用。
促销清单
-
你是否已经编写了一份白皮书,展示了你发现的关键见解,同时也展示了你的团队的能力?
-
你是否确保你的白皮书给读者提供了他们可能不需要的信息来建立信任,并建立了你在相关主题领域的可信度?
-
你是否向当地的 meetup 小组展示过你的作品,展示过与你向客户展示的不同的一面?
-
你是否在博客上记录过你的工作,展示过一些你无法在 meetup 小组上展示的工作,或者展示过一些你通过做几个不同的项目学到的经验?
-
您是否记下了在接下来的两三次中,您将向业务中的其他人展示数据科学团队进展的时间?
《创造伟大白皮书的八大法则》,内容因子,2019 年 4 月 6 日访问,来自 www.contentfactor.com/free-whitepapers/ 。
2
《2019 终极指南:撰写白皮书》,Foleon,2019 年 4 月 6 日访问,来自 www.foleon.com/topics/how-to-write-and-format-a-white-paper 。
3
伊桑·m·拉杰尔,《麦肯锡之路》(纽约:麦格劳·希尔出版社,1999 年)。
七、团队效率
Making the Best Use of Everyone You’ve Got
在这本书里,我一直强调从你所做的工作中获得最大的价值,无论是仔细选择最有价值的项目,还是确保该项目的最终版本能被尽可能多的用户群充分欣赏。
在第六章中,我们谈到了向组织中的其他人推销数据科学团队的工作。可以说,我们正在寻找建立团队品牌的开端。
就这本书而言,首先看团队品牌是很自然的,因为它是从你已经完成的项目中自然延伸出来的。但是,我们也有理由怀疑,当初是什么让团队合作得很好。本章应该解决这个问题。
有时候,“团队”这个词似乎是一部关于公司生活的喜剧中的笑点,比如《办公室》或《??》的《办公空间》。相比之下,在这一章中,我想谈谈如何充分利用你身边的人,而不是强迫你和同事一起“开心”。这是通过与周围的人更好地沟通,找到共同的做事方法,直观地实现的。
从工作中学习
数据科学家通常专注于技术学习,但不应忽视人的因素。在本书中,我们讨论了不同的方法,以确保在与数据科学团队周围的人更有效地沟通时,不忽略人的因素。然而,我们还没有明确地谈到如何作为一个团队一起工作以获得最佳结果。
同时,我们应该注意到我们已经提到的一些提高团队效率的间接方法。其中最重要的一些在最后一章,我们讨论了推广从数据科学过程中吸取的经验教训的方法。毫无疑问,确保你周围的每个人都尽可能地从你的工作中学习,是在团队中有效工作的最重要的方面之一。
然而,虽然没有明说,但这些项目所带来的学习通常是技术学习。我们讨论中隐含的意思是,我们所宣传的大部分内容都是您的研究或分析的直接结果。
然而,注意到你正在努力实现的目标的其他方面是很有用的——那是你一直在做的事情中的人的因素。如果你在过程开始时没有注意到这些教训,你很可能没有花时间去认识到你从一个特定的项目中学到了什么。
为了说明我的意思,考虑一下本书中讨论的项目的生命周期。在这本书里,我提到了项目从有问题的顾客或客户开始,通过正确理解问题,提出并实施解决方案,然后记录并推广已经实施的解决方案的过程。
在第六章中,当我们谈到通过分享您在此过程中学到的知识来提升数据科学团队时,您可以合理地推断出我所说的是直接来自数据分析和建模流程或尝试实施解决方案的流程的技术发现。事实上,当您试图为数据科学团队建立品牌时,这些是与组织的其他成员分享的正确内容。
然而,至少在数据科学团队内部,您学到的关于如何与某些人或人群交谈的经验,或编写优秀白皮书的新方法,与分析的直接结果或技术课程(如准备某种类型变量的新方法)一样重要和有用。
不幸的是,与技术课程相比,这些课程很少被记录在正式的文档中,或者通过培训课程反馈给组织。这种情况可能有几个不同的原因,但很可能是认为创建以人为中心的问题的文档和演示更困难,特别是对技术人员来说。
如果你是一个定期进行回顾的敏捷团队,你已经有了一个定期的过程,部分是为了确保某种未记录的交流发生。危险在于,有时对项目的关注意味着一些最重要的教训可能会被错过。
回顾会议的安排很简单。你回顾最近的活动,列出哪些进展顺利,哪些出了问题。在敏捷环境中,最近的活动通常意味着在最后的冲刺阶段,你不必为了做回顾而遵循敏捷的工作流程。尽管敏捷是第一个用名字来形式化它的,并且这个想法因为敏捷而变得更加流行,但是它对每个人来说都是一个普遍的好主意。
回顾有时不能交付的一个关键原因是,数据科学家(或软件开发人员)天生不喜欢谈论交付项目的人的方面,并且经常找到聪明的方法将本来是关于人的方面的讨论变成技术讨论。
事情可能以这种方式出错的一个常见方式是,人们过度使用项目或敏捷术语,以至于本应是关于人的问题(如沟通不畅)的讨论保持不变,或者变成了关于技术成果的讨论。例如,如果沟通问题导致某人接收到错误的信息,从而导致技术问题,则沟通问题是问题的根本原因,但可以忽略,对技术后果的彻底讨论可以代替对沟通如何失败的更有成效的讨论。
如果你不在敏捷环境中,因此没有回顾,或者在敏捷环境中,但还没有采用它们,这并不意味着你错过了回顾。回顾并不依赖于一个敏捷的环境。如果你没有因为前面提到的原因而被敏捷术语所束缚,你甚至可以进行更有效的回顾。
你可以在互联网指南中找到的举行回顾展的方法,正是你可以用来制作适合自己的回顾展的基础。在每一种情况下,你基本上都有不同的方法来促进某种程度上引导的头脑风暴会议。在这种情况下,你有很大的空间来引导头脑风暴到你认为最需要的地方。
不要满足于用数字追溯。也就是说,如果你要求团队想出可行的和不可行的东西,在加号栏和减号栏之间过一会儿,你得到的都是你上次用安全的敏捷行话或你公司支付的上一次培训会议的安全行话表达的老一套东西——拒绝它并要求更多。
如果没有那么糟糕,但是唯一的问题是纯粹的技术问题,那么给他们一些人性方面的提示。它也可能以另一种方式工作——如果问题太多是在人的方面(这很可能意味着回顾已经沦为一个简单的责备游戏)。
事实上,回顾展是一种可扩展的形式,类似于原曲或 12 小节布鲁斯,它可以用不同的方式来满足人们的需求。
最重要的是,回顾是一个平台,让管理者扮演最重要的角色——作为教练的管理者,教练这个词本身实际上是老师的另一个词。
事实上,虽然教练的想法有时会让人联想到“官方”或公司授权的一对一教练会议,但团队教练会议有时会更有效。考虑运动团队(与商业团队的比较被过度使用)。教练所做的大量互动和工作是与团队一起完成的,而不是一对一的。通过将这些课程作为团队辅导的机会,有很大的机会来改善团队,最明显的是通过确定您希望整个团队采用的行为。
有意识地决定在回顾中引导讨论的第二个好处是,你可以通过做“粘合工作”来获得人们改进团队的称赞“粘合工作”被宽泛地定义为对团队成功至关重要的工作,但不是由组织的标准度量来衡量的。这种工作很容易被忽视,富有成效的团队成员可能会因为他们努力提高整个团队的生产力而得不到应有的荣誉。
对于那些本能地畏缩不前,让团队的思想流动的人来说,这可能是一种不同的做事方式。这样做是有时间的,但也有时间确保不仅讨论正确的问题,而且讨论产生切实可行的建议。
因此,有空间让主持回顾性讨论的人加入并引导讨论走向最重要和最相关的问题。不仅如此,还有质疑讨论结果的空间,以确保所做的决定切实可行。
当然,最终的目标是你通过回顾发现的东西可以应用到你所做的事情中,改变你的实践以获得更好的结果。当您这样做时,您将希望确保新的实践被您的团队尽可能经常地使用。这意味着你需要找到标准化你所做的事情的方法。
做事的共同方式
提高团队效率的一个最常见的经验就是要有一个共同的目标,尽可能被团队的所有成员以同样的方式理解。对于数据科学家来说,这可能是一个挑战,因为缺乏对数据科学家的一致定义。然而,在一个特定的组织中,您至少有一些机会能够在您的直接环境中确定什么是数据科学家。
即使在对数据科学实践的共同理解的实践层面,数据科学家可能具有的各种背景也更加需要确保团队中的每个人对常用术语和相同的整体方法有相同的理解。
直觉上,分享愿景的最佳方式是共同创造愿景。许多团队凝聚力指南建议一起集思广益团队愿景。当我们讨论创建一个团队任务时,我们在第一章中提到了一些。
但是,实用的一面还是需要注意的。在许多行业中,例如通常在整个制造业中,自上而下地创建和实施高度标准化的过程。经常发生的情况是,预期使用它们的操作者对它们很反感。
数据科学团队的情况有所不同。这些标准流程只适合数据科学团队中相对较少的人使用。人数相对较少也意味着,与通常应用于大型制造商的情况不同,将标准实践作为一个团队来选择是非常实际的。
能够标准化流程的关键优势在于它减少了可变性。在制造过程中,其他几个优势也随之而来,但在我们的数据科学环境中,一个有用的优势是可预测性。通过一个可预测的过程,你知道你会得到什么,以及需要多长时间才能得到它。这些优势对于赢得信任的过程也非常重要——可预测的能力意味着你可以做出承诺,并知道你能信守承诺。
注意,你不需要被标准化这个词的含义所限制。也就是说,人们可能会错误地认为标准化仅仅意味着创建一个所有人都遵循相同方式的“黑函”流程。然而,也有不采用这种方法的标准化方法。
例如,考虑敏捷宣言, 2 ,它被表达为一系列偏好,而不是预先确定的选择。这个想法可以扩展到其他领域,意思是“首先尝试这个”——例如,您可以在建模中制定一个准则,即您总是首先尝试逻辑回归,然后转向更复杂和更不透明的模型。
“软”标准化的另一种方式是创建边界。举一个与上一个类似的例子,你可以有一个规则,对于某一类问题,你永远不会使用 k-最近邻(或其他一些对你的典型数据类型没有产生好结果的算法)。
在数据科学环境中有效实现标准化的其他方法可能包括:
-
**目标变量的标准定义:**例如,在根据对您的组织有意义的时间窗口考虑目标时,您是否有一个标准的起点?
-
**标准术语:**吉尔说自变量,乔说输入吗?
-
**标准工具:**你可能已经决定了一个标准平台/语言,例如,R 或 Python 或一个商业软件包——但是如果你已经选择了 R 或 Python,你是否已经为特定的常见任务标准化了首选库?
如果你把它们作为一个整体来决定,所有这些事情会更容易坚持。这也是对回顾会上经常出现的问题“我们需要在这个问题上标准化吗?”的一个很好的标准回应这样你面前就有了一个活生生的例子。
违反标准化往往比遵守标准化更受尊重——人们同意这通常是件好事,但却不去做,因为他们对它是什么或如何做有着过于刻板的想法。
如果你摆脱了这种刻板印象,你就可以在你的团队中打开标准化实践的大门,以一种你可以控制的方式,为你和你的团队工作。
你的团队需要的技能
数据科学家几乎痴迷于他们需要的技能。这可能是因为对数据科学家到底是什么一直模糊不清。如果一个数据科学家,就像他们说的那样,“比统计学家更会编码,同时比编码员更懂统计学”,那么在这两个方面学习的需要到哪里为止呢?
这一概念有时被称为独角兽数据科学家,通常建立在数据科学团队独立于其他团队工作的假设之上。因此,如果他们需要调配数据库,他们最终会自己动手。如果他们需要构建 UI,他们最终会自己动手。
对于原型设计或开发概念验证来说,这有时可能是真的,但在比数据科学团队本身更大的公司中,更有可能会有人专门负责做这些事情。例如,他们可能以各种各样的名字存在,但很可能有人的工作是数据库管理员的后代,并且他们通常在数据科学功能出现之前已经在您的组织中存在很长时间了。
在他们存在的地方,您有机会将工作转移到数据科学团队之外,这简化了您需要维护的技能。不要担心,仍然会有一长串只能在数据科学团队内部完成的事情。事实上,正是因为这个清单很长,你才需要小心避免做那些你不需要做的事情。
您需要关注的工作是其他人无法轻松完成的工作,或者至少需要数据科学团队内部的理解,以确保最佳结果。
第一个例子是模型评估——除了在数据科学团队中,这些技能在其他任何地方都找不到,所以它们最好存在于数据科学团队中,并且表现良好。
另一方面,尽管对业务的理解显然可以在其他地方找到,并且通常比数据科学中的理解更好,但它不能像构建 ETL 那样被外包——足够水平的业务理解在数据科学团队中是必不可少的。
因此,在开发技能清单时,您需要在两个层面上进行开发。一个层次是你的团队内部的,另一个层次是你的团队相对于组织的其他部分。
还要考虑数据科学招聘广告通常是根据掌握的工具列表或特定技能领域来设计的。具有正确思维方式的人通常相对容易掌握技术技能。这些心态本身更难被轻易接受。
例如,您可以将人们分为“构建者”和“分析师”——希望构建数据产品的人和希望分析数据以了解它如何应用于问题的人。这些是非常不同的心态。另一种不同的角色是“扳手”从某些方面来说,斯潘纳就是许多人眼中的数据科学家——他们是跨越建筑商和分析师之间,或者数据科学家和数据工程师之间的鸿沟的人。再说一遍,尽管要想在这个职位上取得成功,确实需要跨领域的技能。
对组织中其他领域可用的技能有深刻的理解,通常可以减轻数据科学团队的一些压力,并帮助您在需要招聘时保持所需技能列表的可控性。
摘要
数据项目需要数据科学团队来完成,但数据科学家通常专注于项目的技术细节,而不像他们应该做的那样担心他们的团队如何工作,甚至不知道数据科学团队与其所属组织的其他成员合作得如何。
敏捷中至少有一些人性的一面。回顾是为了捕捉一些人类的问题,尽管它们有时被认为是敏捷中更难做好的方面之一(尽管你不需要正式成为敏捷来进行回顾)。
虽然有许多执行回顾的指南,但确保您成功讨论流程中最相关的人的问题并发现实际解决方案的一个关键要素是确保人的方面得到适当的讨论。当与一群根据技能挑选的人打交道时,这通常需要有人将谈话引向正确的话题。
共享标准化的方法和标准化的愿景也是提高团队凝聚力和团队效率的重要方法。在数据科学中,与医学等职业相比,培训的标准化程度可以说更低,因此更加需要采取审慎的步骤来实现标准化。
了解组织中其他领域的技能可以帮助您将自己团队中的技能需求保持在可管理的范围内。确定不需要在你自己的部门内发生的工作,这样你就不需要经常保持那些技能,你可以简化你自己的流程。你也可以简化你所在区域的人员类型,从而提高凝聚力。
然而,标准化并不一定意味着经常与这个词联系在一起的那种严格的过程。有一些创造性的方法可以提供指导方针,而不会对你的团队成员创造性的工作方法施加繁重的限制。
团队效率清单
-
你是否创建了一个团队回顾的过程,在分享以前项目的经验教训方面考虑了正确的事情?
-
在进行回顾时,你有没有练习过如何引起对人的因素的额外关注?
-
你在回顾中所做的决定会延续到你日常的工作中吗?
-
您是否创建了数据科学概念和业务概念的标准术语供团队内部使用,以及对优先级的标准化理解?
-
你是否根据团队中每个人的意见创建了一个团队愿景?
-
您是否评估了您的数据科学团队所需的技能,考虑了您组织中其他地方可用的技能,以确保您的团队成员发展正确的技能组合?
坦尼娅·雷利,《被胶水粘住》,2019 年 4 月 8 日访问,来自 www.slideshare.net/TanyaReilly/being-glue 。
2
《敏捷软件开发宣言》,2019 年 4 月 4 日,来自 https:agilemanifesto.org 。
3
韦恩·埃克森(Wayne Eckerson),分析型领导者的秘密(新泽西州韦斯特菲尔德:工艺出版社,2012 年)。
八、后记
在本书的过程中,我们开发了一个数据科学项目战略,其中包括发现客户真正想要什么的开始阶段,以及了解您的团队在满足该需求的过程中所扮演的角色。现在是时候后退一步,看看全貌了。
成功的数据科学项目和失败的数据科学项目有什么区别?一个成功的数据科学项目始于对客户需求的清晰了解,止于可以在可用平台中理解的结果,在此过程中,项目负责人必须让人们相信项目是值得做的。
从头到尾检查流程不仅能让您了解在旅程中的任何特定时刻需要什么,而且要了解更大的图景还需要您后退一步,思考不同区域之间的关系,以及如何开发一个通用框架来提高您的数据科学团队和数据科学项目的效率。
在这个通往更好的数据科学项目的旅程中,有一个词不断出现:信任。当你试图让某人信任你时,最大的问题是它不会在一夜之间到来——相反,获得某人的信任是一个渐进的过程,类似于创作一幅油画所需的阶段,从最初的草图到详细的着色。
对于数据科学家来说,试图获得组织中其他人的信任或试图赢得客户的信任似乎非常缓慢。做模型很快。像数据准备这样的活动要慢得多,但还是比不上说服别人信任你那么慢。
幸运的是,正如我们所看到的,一个单独的项目通常会提供许多建立信任的机会。当你第一次与有问题的人接触时,有一个至关重要的机会——你可以通过倾听和理解他们的问题来赢得他们的信任,这与你实际解决他们的问题几乎是一样的。
获得信任意味着不浪费机会。在千禧年开始时出版的一本食谱提倡从鼻子到尾巴吃东西。作者的一句口号经常总结了“从头到尾吃东西”的哲学,“如果你要杀死一只动物,把整个东西都吃了才是礼貌的。”在数据科学中,如果你要占用某人的时间和他们的数据,礼貌的做法是你发现所有可以这样做的经验教训。
每次有人让你解决他们的问题,他们都在冒险。通过理解解决某人的问题是一个千载难逢的机会来回报这种风险。你参与的任何项目都会给你很多机会去说服别人信任你,即使这个项目没有最终实现。
不要浪费那些机会,尤其是那些你似乎错过的机会。毕竟,充分利用一个结果良好的项目并不是什么大挑战。问题是,会有一些项目结果不太好,你仍然需要充分利用这些项目。
为了最大限度地利用这些错过的机会,你需要尽可能地从更广阔的视角来看待可能的教训。如果您从数据科学项目中学到的是如何更好地与您的本地数据库管理员合作,那么这是有价值的,如果你们两人现在有了更好的工作关系,那么您应该感谢帮助您一起在数据中找到有价值的东西的客户。
充分利用别人给你的东西只是出于礼貌。
在你的模型中建立信任是一个良性循环。当你尽可能地与客户密切合作时,你就创造了他们想要的东西。当你建造他们想要的东西时,他们会更自由地与你谈论他们的真实需求,你也更有可能建造他们想要的东西。
诚然,也有例外,而且有可能出现的情况是,违背合理预期的成功会得到新的不合理预期的回报。即便如此,赢得人们的信任要容易得多,因此,通过在你所做的事情上取得成功,并说服他们你可以给他们更多的时间,来确保他们给你时间。
失去信任是另一个方向。如果他们不信任你,他们就会变得越小心翼翼,对他们真正想要的就越不开放,你构建的东西就越有可能不符合他们的要求。另一个结果是,最后期限的选择可能变得不那么合理——如果需要改变,也会变得不那么灵活——从而进一步加深信任赤字。这确实是一个恶性循环。
更好的做法是进入一个通过增加你成功的机会来回报你的循环,而不是打败它。此外,如果没有别的,这本书应该已经表明,你有相当大的控制人们对你的工作的反应方式。
数据科学成功的核心是你的项目为人类解决问题的能力,这意味着理解人类在某个地方想要什么。它意味着避免依赖算法,并确保您依赖团队自己的人类直觉。人类的直觉将会弥合模型本身所能做的和人们实际想要的之间的差距。
在人类方面取得成功需要更多的人类互动,而不是花更多的时间开发模型。
数据科学中人的一面通常也是隐藏的一面。通过了解你的用户参与你所创造的东西的方式,你将确保他们会欣赏你所创造的最大潜力。你也将更有可能被邀请回来帮助更多的项目。
只要你的团队记得,被邀请回来并不是一定的,而是取决于他们如何让你的用户相信你的工作的价值,你的团队就会被接受站在他们的用户一边,并因他们的成就而受到称赞。
只要你记得团队的表现如何影响人们对你所做的事情的评价,你的声誉就会提高,你将在职业生涯中继续享受越来越多令人兴奋的机会。
数据科学对许多人来说意味着许多事情。无论您来自何方,我希望并且相信,您可以应用本书中的一些内容来确保您组织中构建的数据科学产品能够成功地让您的用户生活更加轻松,并促进数据科学成为解决许多环境中问题的强大工具。
Footnotes 1弗格斯·亨德森,《整个野兽:从鼻子到尾巴吃东西》(纽约:Ecco,2004)。