音乐如何使我成为更好的数据科学家
我的音乐和数据科学之路告诉我,个人的成长来自于对大局的更多了解。
我仍然记得11年前在德克萨斯州一个炎热的夏天挑选我的第一把电吉他。那是一把不起眼的乳白色Fender Squier,琴弦略有生锈,但我迫不及待地想把它带回家。当我把它带回家时,我迈出了成为 "碎裂之王 "的第一步。我学会了我的音阶,调高了失真度,并调整我的手指,使其动作越来越快。我被70-80年代摇滚乐令人敬畏的吉他独奏所鼓舞,以至于我不太在乎学习其他东西。节奏、和弦或音调的空间很小;我只想快速而华丽地演奏。
一两年后,我可以蹒跚地学会一些著名的吉他独奏,所以我觉得已经准备好加入一个乐队。我开始和我高中的一些朋友一起演奏,我们试着写原创音乐。我认为这是个机会,可以写一些吉他部分,尽可能地展示我的主音吉他技巧。在一次命中注定的即兴演奏中,我的朋友们开始弹奏一段让人联想到21世纪初的摇滚乐,如Green Day或Blink 182乐队,他们要求我添加一个主音吉他部分。现在回想起来,这段旋律需要一个简单、有活力、有旋律的吉他独奏。然而,我却漫无目的地在五声音阶上放大和缩小。音乐一停,我的朋友温柔地告诉我,虽然我的独奏令人印象深刻,但它与乐队的演奏 "不相称"。这个反馈当然让我措手不及--在我心里,令人印象深刻的吉他部分就是一个好的吉他部分。
在那件事之后的几年里,我开始向更有经验的吉他手和老师学习。这些导师一次又一次地强调 "为歌曲服务 "的重要性。这意味着音乐家的首要重点应该是制作与听众相联系的音乐,而乐器仅仅是帮助这一努力的工具。有时为歌曲服务需要精湛的独奏,有时需要演奏一些简单的东西,有时甚至需要不演奏。这种范式的转变从根本上改变了我的练习习惯。近年来,我更加注重培养自己的时间感、音准和和声--所有这些都提高了我对自己的角色在全局中的地位的认识。为歌曲服务也鼓励合作,因为音乐家们必须协调编写有效互动的部分。
那么,这与数据科学有什么关系呢?嗯,我在数据科学方面的旅程在很多方面反映了我在音乐方面的旅程。当我开始学习数据科学时,我对复杂的机器学习算法很着迷,我把它们视为一个成功的数据科学家的核心能力。现在我有了更多的经验,我比以前更看重其他技能--比如编写生产质量的代码、商业意识和沟通--。换句话说,我学会了作为一个数据科学家为歌曲服务的价值。在专业的数据科学项目中,"歌曲 "通常是一个产品或一个决定,数据科学家必须学会用他们对这些工作的贡献来量化他们的成功。这种心态大大提高了数据科学家的就业能力。作为一个招聘者,我更愿意看到简历上写着 "建立了一个模型,将维护成本降低了10%",而不是 "建立了一个准确率为95%的模型"。
说白了,许多快速的吉他独奏都是为歌曲服务的,许多尖端的机器学习模型也是为了改善产品。最重要的是,了解什么能提供价值,什么不能。我欣赏的吉他手在合适的时候会演奏精湛的独奏,但在歌曲需要的时候,他们会弹出开放的和弦。当我面试数据科学申请者时,我通常会问一个关于为一个基本的二元分类问题选择一个初始模型的开放式问题。我发现,那些建议从简单的逻辑回归模型开始的候选人,是那些能够详细解释更复杂的模型如何运作的人。具有讽刺意味的是,一些建议从更复杂的模型开始的考生不能清楚地解释这些模型是如何运作的。在音乐和数据科学领域,技术能力最强的从业者通常会认识到,许多情况并不能从他们工具包中最先进的技术中受益。
回过头来看,我作为一个吉他手,对快速演奏的过度强调,有些是来自于玩视频游戏《吉他英雄》。在这个游戏中,玩家每弹出一个正确的音符就能获得积分,因此,有很多音符的快歌是获得高分的理想选择。虽然我仍然喜欢《吉他英雄》,并认为它灌输了我最初对吉他的热情,但它的激励措施使我忽视了与他人一起演奏实际乐器的重要方面。我想知道Kaggle比赛是否对一些有抱负的数据科学家有类似的影响。这些比赛当然会推动这个领域的发展,对学习也很有帮助,但我担心它们会导致一些人过分强调建立高性能的模型,而不重视产生商业价值。
有时,模型的性能和价值之间实际上是有权衡的。这种权衡往往是由于时间的限制。在一些项目中,我曾面临这样的决定:是把时间花在让模型更有_性能_还是更_有影响力_上。让一个模型更有性能包括诸如特征工程、评估不同的模型和建立集合模型等任务。另一方面,使一个模型更有影响力包括一些任务,如在生产环境中部署它,配置它来发送自动通知,以及改进它的文档。性能和影响之间的权衡有时也发生在模型的选择上。简单的模型如线性回归比深度神经网络或随机森林更容易向非技术性的利益相关者解释。利益相关者更有可能信任他们所理解的模型的结果,并最终_采取行动_。因此,在有些情况下,为了实现价值最大化,牺牲一些性能来换取影响是可取的。一个成熟的数据科学家的标志之一是有能力将这些情况与那些需要更严格的方法的情况区分开来。
最终,我的音乐和数据科学之路告诉我,个人的成长来自于对自己的贡献如何融入大局的更多理解。在这两项工作中,我曾经认为,卓越仅仅包括掌握困难和复杂的技能。虽然这些技能是有用的,但我现在认识到,卓越是 "为歌曲服务 "的能力。
音乐如何让我成为更好的数据科学家》最初发表在《走向数据科学》杂志上,人们正在通过强调和回应这个故事来继续对话。