【译】为什么每个数据科学研究生课程中都应该包括优化教学的3个原因

122 阅读11分钟

领先的学者和行业专家一致认为,在数据科学的工具包中加入优化是就业市场中真正的差异化因素。

照片:Daniil KuželevonUnsplash

为了在毕业后找到数据科学的角色,学生需要完成一个全面的应用课程,包括数学、统计学和计算机科学/编程。他们还需要为他们将要学习的分析技术,如机器学习,提供一个坚实的商业背景。

除了传统的商业课程之外,数据科学和分析学的研究生学位通常会在一个行业提供的咨询项目中达到顶峰,该项目提供了从合作公司获得的解决真实世界商业问题的实践经验。这些行业提供的咨询项目可以强调的一个问题是,不是所有的商业问题都可以单独用机器学习来解决的。有些问题需要一个可以用来做出数据驱动决策的最佳解决方案--因此,不仅要有预测性的见解,提供对接下来会发生什么的看法,还要有一个值得信赖的规定性行动方案,企业可以自信地将其付诸实施。

数据科学研究生学位课程通常侧重于教授预测性分析,但并不是所有的课程都会教授学生规范性分析(即利用优化--主要的规范性分析工具--来寻找复杂商业问题的解决方案并做出最优决策的能力)。

在过去的两个月里,我与正在塑造顶级数据科学项目的教授、行业专家和在组织中安排顶级数据科学人才的领导人进行了交谈,了解为什么在学术项目中把优化注入数据科学工具箱是塑造下一代问题解决者的一个重要部分。

我们讨论了新出现的趋势,目前如何向数据科学家教授优化,以及向学生介绍优化问题的价值,以便他们能够利用组合解决方法,不仅为他们未来的雇主提供预测性的见解,而且还提供能够导致可信决策的规定性力量。

我从谈话中获得的见解使我得出结论,有三个主要原因,为什么优化应该被认为是数据科学和分析项目中的一个基本要素。

1. 企业领导人对数据的期望比以前更高。

企业正在收集比以往更多的关于其客户、流程和产品的数据。福布斯》估计,近一半的企业要么开始新的分析项目,要么在现有项目上不断进取,并强调不能从数据中快速获得洞察力(以及随后的决策能力)的企业正在落后。

优化--一种数据驱动的规定性分析技术--的应用是巨大的,规定性能力正在影响着全球范围内的业务运作方式。公司使用大量的数据为关键决策提供信息,从疫苗分配计划和器官捐赠者与接受者的匹配,到全球航运物流和每天超过10万个航班的调度。

然而,一些公司在其分析旅程中仍然没有达到这种成熟度。显而易见的是,无论一个公司的分析成熟度处于什么阶段,企业领导人比以往任何时候都更了解情况,并对他们的数据抱有更大的期望。

在讨论优化的广泛使用案例时,Gurobi优化公司的首席执行官Ed Rothberg博士向我提出了一个问题。"人们集体意识到,机器学习并不是每个问题的解决方案,那么你会怎么做呢?"他讨论了随着领导者对优化的认识和理解的发展,他从领导者那里听到了什么,他的评估是,最终要由企业领导者来认识到优化机会应该被优先考虑,以增加业务的价值。

西北大学兼职教授、Coupa人工智能负责人迈克尔-沃森博士认为:"企业领导人确实了解优化的价值,但他们可能不了解实际导致优化的技术的具体内容。他们了解使用数据做出特定决定的价值"。

2.如果公司现在没有规定性的能力,他们很快就会有。

鉴于许多复杂的权衡,能够获得最佳的解决方案,有助于企业领导人迅速和自信地采取行动。机器学习模型可以根据历史和实时数据成功地预测下一步会发生什么,但它们不能帮助企业对下一步的行动做出最优或可解释的决定。如果企业没有使用优化,他们很快就会使用。

Gartner预测,到2022年,规定性分析软件市场将达到18.8亿美元(比2017年有20.6的年复合增长率),37%的大中型企业将使用某种形式的规定性分析技术。

有许多公司仍处于建立其分析能力的早期阶段。有些公司已经有了数据科学团队,但还没有超越使用他们的数据进行预测。定量猎头公司Burtch Works的董事总经理兼创始人Linda Burtch,分享了她对分析团队未来趋势的看法。"能够获得预测能力是圣杯,领导层需要相信它,他们需要推动它。公司必须先走后跑,这些团队中的很多人现在刚刚开始小跑,所以给它时间,我认为更多的公司将达到这种规定性的方法。"

3.3.没有学习优化的学生有可能没有准备好解决公司需要回答的各种紧迫问题。

当我与专家和学者交谈时,我清楚地意识到,几乎每个与我联系的人都有一个相关的故事,即公司向学生团队提供一个行业提供的咨询问题(无论是以顶点项目还是实践项目的形式),在问题陈述中同时包含机器学习和优化成分。在大多数情况下,这些公司甚至不一定意识到这些问题有优化成分,但他们确实意识到他们需要根据他们提供的数据做出决定和实施建议。

行业提供的问题不能仅靠预测或处方来解决,学生们需要结合数学建模,以提供解决方案和对下一步行动的见解。我将再次分享佐治亚理工学院分析学硕士项目的教授兼主任乔尔-索科尔博士与我分享的一个故事。"有一家公司带着一个研究问题来找我们,他们突然获得了所有新的数据集,他们希望能够开始把所有这些信息放在一起,但是这些数据集来自不同的来源,而且不一致(重复的,不一致的标签,等等)。你如何去匹配数据?回答这个问题有预测性的部分和规定性的部分,我们的学生需要思考他们工具包中的所有模型,以及如何在没有人为区分(预测和规定)的情况下使用它们。"

这样的故事我听了很多次,但也是我亲身经历的。我以前是西北大学分析学硕士项目的副主任,我们要求每届学生都要有两套由行业提供的咨询项目。这些项目被嵌入到课程中,向我们的学生介绍现实世界的问题解决,并提供那种实践经验,这将有利于他们为成为数据从业者和数据科学的未来领导者做准备。在我参加这个项目的这几年里,有多个项目需要优化,以便向公司提供有用的可交付成果,并加以实施。

我很幸运地与教务主任Diego Klabjan博士一起工作,他认识到数据科学家了解全部分析技术的价值。他倡导数据科学学生在项目早期学习优化,并且是提供优化课程作为核心要求的先驱者之一,这样学生就可以为一个问题确定正确的分析方法并有效地解决它。

乔尔-索科尔(研究生水平的数据科学教育的另一个先驱)扩展了这个想法,并解释了他的学生是如何在一个本质上是跨学科的项目中处理问题的。"我们向学生提出商业问题,我们不说它是预测性的还是规定性的。学生们需要弄清楚需要什么数据来回答问题,需要什么模型才能达到解决问题的目的"。

向数据科学学生教授优化方法

数据科学的学生天生就是伟大的问题解决者。他们在进入数据科学或分析学研究生学位课程时,往往有很强的数学背景,有编程基础(我们越来越多地看到Python成为主要的编程语言),以及对如何在数据中发现有价值的模式的自然好奇心。这些学生具有量化的能力和寻找最佳解决方案的欲望,这种能力自然而然地用于解决优化问题--而且,无论他们是否知道,他们已经在使用借鉴优化的机器学习技术。

迈克尔-沃森解释说,"一个好的数据科学家已经知道数学。他们使用统计学,他们建立的算法与数学建模相差不大。在数据科学家已经使用的许多算法中,优化是在幕后的,回归模型使用优化,深度学习有优化嵌入其中。"

数据科学和分析硕士学位通常需要一年左右的时间来完成,尽管课程可以从九个月到两年不等。方案的任务是提供一个课程,为学生准备好在数据科学领域的有利可图的职业。他们通常只有两个学期的课程来为学生做准备,他们需要做出艰难的决定,什么是他们的学生作为数据科学家取得成功所必须的。由于这些类型的艰难决定,许多项目选择不将优化纳入其核心要求,这是有道理的。迈克-沃森解释说:"大多数学生从来没有见过,甚至没有听说过优化,所以必须向他们介绍这种使用数据做决定的新方法,实际上是使用数据得出答案并开出解决方案,这与使用数据进行预测不同(这是传统机器学习课程的教学内容)。没有优化,学生就会错过机会"。

公司需要解决的各类问题正变得越来越复杂,不仅能够识别优化问题,而且能够为企业领导提供最佳解决方案,这将是未来几年进入就业市场的数据科学学生的一个差异化优势。乔尔-索科尔亲眼目睹了这种成功,并分享说:"优化是被认为是我们课程的核心部分的要素之一。它适合于该课程,我们的一些校友甚至说这是一个核心的差异化因素。他们现在可以采取额外的措施:现在他们对事情的运作有了很好的理解,对将要发生的事情有了像样的预测,他们如何利用这些?他们如何在此基础上做出决定?这个优化部分确实是数据科学进展中的下一步。"


为什么优化应该包括在每个数据科学研究生课程中的3个原因最初发表在Medium上的Towards Data Science,人们通过强调和回应这个故事继续对话。