欢迎来到雲闪世界。大多数数据科学家自然而然地被数据科学的有趣部分所吸引——开发技术先进、复杂的机器学习模型。然而,很多数据科学经理在模型的技术设计上投入了太多时间,而没有投入足够的时间来深入了解模型旨在解决的业务问题。结果,技术上成功的项目被部署到生产中,却未能实现预期的业务价值,并被永久地埋在了我称之为“数据科学墓地”的地方。作为一个大型团队的数据科学经理,我埋在那个墓地里的项目比我愿意承认的要多。然而,这些经历教会了我宝贵的经验,让我知道如何确保数据科学项目产生真正的商业价值。在本文中,我将分享数据科学经理可以用来确保数据科学项目产生明确而有意义的业务影响的四个重要经验。
1:使项目与公司的业务目标保持一致
大多数(如果不是全部)公司都会定期分享战略目标和目的。例如,目标可能是“到 Y 日将客户保留率提高 X%”。这些目标和目的代表了公司运营的北极星。它们明确优先考虑业务的不同部分,并帮助员工决定哪些工作重要,哪些不重要。话虽如此,您的团队承担的每个数据科学项目都应与特定的业务目标或目的直接相关。
在实践中实现一致
编辑
添加图片注释,不超过 140 字(可选)
在我的团队中,我们实施了一个流程,以确保我们的项目与公司的战略重点紧密相关。在每个项目周期开始时,我们都会作为一个团队聚在一起,审查我们可以使用现有工具和数据开展的工作清单。我们对这份清单进行了两次审核——第一次关注哪些项目有可能影响特定的公司目标或宗旨,第二次关注量化项目可以创造的商业价值。在这个过程的最后,我们有效地对待办事项进行了优先排序,以确保最有影响力的项目正确地放在待办事项的首位,而影响力最小的项目则应放在清单的底部。
这个过程只需不到一小时,并保证团队将时间花在最有可能为公司目标和利益创造有意义价值的项目上。此外,它还有助于提高团队对目标和目的的了解,而不仅仅是自上而下分享的内容。这种改进的知识增强了团队在整个项目中做出正确决策的能力,并确保我们不会不必要地牺牲业务价值。
#2:与利益相关者互动和合作
有效的利益相关者参与对于确保数据科学项目受到欢迎和产生影响至关重要。如果没有一致、定期和有效的沟通,数据科学项目最终将与其旨在创造的业务价值之间产生分歧。话虽如此,管理人员在弥合数据科学团队和业务部门之间的差距、促进沟通和确保双方保持一致方面发挥着关键作用。
让利益相关方参与实践
编辑
添加图片注释,不超过 140 字(可选)
在我目前的职位上,我不会遵循严格的利益相关者参与流程。但是,我已确定了有效利益相关者管理的四个关键要素。
- 尽早确定利益相关者:数据科学项目通常是大型产品更新或计划的一部分,这意味着构建的内容可能会影响多个团队——无论是工程、产品还是专业业务部门。确保尽早考虑所有相关利益相关者的观点和看法,可以更轻松地创建适用于问题陈述并产生实际商业价值的解决方案。
- 就成功指标达成一致:作为经理,您可以帮助利益相关者了解在开发过程中如何评估模型。此外,您还可以帮助这些利益相关者了解用于评估模型的指标如何与项目试图影响的问题陈述和公司目标相关联。确保利益相关者都对成功有充分的了解意味着一旦模型上线,就更容易衡量和分享成功。达成共识应该是协作的,而且利益相关者通常会帮助数据科学家完善他们的成功指标,以便他们正确衡量模型对业务的影响。
- 一致的检查点:根据我的经验,数据科学家有时会忽略在开发过程的技术方面让利益相关者参与进来,通常只让他们确认问题陈述或分享最终模型结果。然而,利益相关者可以在设置训练数据、设计特征和评估结果等阶段提供有价值的见解。不要犹豫与利益相关者合作,就像你与数据科学团队合作一样。
- 乐于接受反馈:毫无疑问,当您与利益相关者分享更新和进展时,他们会有很多话要说。很容易将他们的意见视为缺乏技术理解或缺乏数据科学工作经验。然而,现实情况是,这些利益相关者通常代表了模型最终用户的观点。如果您希望您的模型能够帮助企业并产生真正的商业价值,请听取这些不同利益相关者的意见!
#3:用明确的指标衡量成功
为了确保数据科学项目能够带来真正的商业价值,必须建立明确的成功指标。如果没有明确的成功指标,即使是技术上最出色的模型也可能变得毫无意义、未得到充分利用或无法实现预期结果。
在实践中建立明确的指标
在我职业生涯的早期,我几乎一直在为此而苦苦挣扎。我很难弥合复杂的损失函数与我们试图创造的商业价值之间的差距。因此,我分享了我在定义成功指标时经常陷入的一些陷阱,以及如何在实践中避免这些陷阱。
- 只关注技术指标:人们总是倾向于关注模型训练期间使用的指标,例如准确度或 F1 分数。这些指标是数据科学家构建强大模型的关键,但它们不应单独使用。例如,如果一个项目旨在提高客户保留率,那么如果在部署模型后客户保留率保持不变,那么即使是高度准确的模型在实践中也可能毫无用处。话虽如此,在定义项目的成功指标时,请确保这些指标不仅包括技术性能,还包括模型对关键绩效指标的影响,这些指标可以反映您想要创造的业务价值。
- 忽视利益相关者的反馈:我在上一节中提到过这一点,但利益相关者通常有很多有价值的反馈,这些反馈有助于定义和完善指标,使其更好地与业务目标和目的保持一致。忽视这些反馈可能会导致模型的性能与为公司创造实际价值的能力不一致。正如我之前提到的,尽早与利益相关者接触,共同定义正确的指标,并始终如一地与利益相关者分享这些指标。
- 指标定义过于复杂:在我看来,越简单越好。没有必要追踪过多不同的指标,或者以一种需要小团队才能理解指标为何以某种方式变化的方式定义指标。我给所有经理的建议是保持简单。您的指标应该易于沟通。不要害怕专注于一两个能够抓住您要解决的问题本质的指标。
#4:持续监控和验证绩效
在本文的开头,我们讨论了确保每个数据科学项目都与公司目标保持一致的必要性。但是,如果没有正确的监控,您将永远不知道模型是否有助于创造价值。更具体地说,根据既定指标持续监控模型性能是确认您的数据科学项目按预期运行并随着时间的推移创造价值的关键步骤。
监控实践
在实践中,监控经常被忽视。人们很容易以需要花时间解决其他问题为由不做监控。然而,监控功能可以很容易实现。以下是我目前所采取的一些实际步骤:
- 尽早考虑监控:制定数据科学项目计划时,应始终包括监控。在我的团队承担的每个项目中,我们都会在项目计划中明确分配时间来建立监控功能。将其更多地视为必须完成的事情,而不是应该完成的事情,这样在认为项目完成之前,更容易证明开展这项工作的合理性。
- 关注已定义的成功指标:监控并不意味着报告所有模型指标。相反,您的监控框架应关注已达成一致的成功指标,这些指标在模型和问题陈述/公司目标之间具有明确的联系。由于这些指标已与相关利益相关者共享和验证,因此量化模型创造的价值将非常容易。
- 自动执行定期性能检查:不要手动和零星地监控模型结果,而是设置自动化系统来收集所需信息并以构建监控所需的方式组织这些信息。每当我对任何人说这句话时,他们都认为这意味着需要跨职能努力来建立复杂的系统来实时监控预测。但是,您可以使用一些工具来实现相同功能的更简单版本。例如,Github Actions是一种很好的方法 - 只需设置一个 python 脚本来获取所需数据,然后使用 Actions 在计时器上执行此脚本。此脚本可以将数据发送到数据库以进行仪表板开发,或者只是发送到电子表格。关键是,除了团队中做出贡献的数据科学家之外,这几乎不需要任何人的支持。
通过数据科学项目实现现实世界的商业价值需要的不仅仅是技术专长。作为数据科学经理,您有责任确保您的项目不仅在技术上取得成功,而且与公司的战略目标保持一致,并持续产生可衡量的成果。随着您在数据科学之旅中不断前进,我鼓励您将这些实践融入到您管理团队的方式中。
感谢关注雲闪世界。(Aws解决方案架构师vs开发人员&GCP解决方案架构师vs开发人员)
订阅频道(t.me/awsgoogvps_…) TG交流群(t.me/awsgoogvpsHost)