所以你想成为一名数据科学家......这太棒了!但你可能已经知道(或很快就会发现),这并不那么简单。但是,你可能已经知道(或者很快就会发现),这并不是那么简单。
事实上,你很可能会面临一些数据科学所特有的挑战......
挑战一:"数据科学家 "到底是什么?
你可以问10个数据科学家,得到15个关于他们工作的描述。术语 "数据科学家 "的定义远不如......比如...... "会计 "或 "网络开发人员 "那样明确。
这是一门相对年轻的学科,所以不同的雇主对数据科学家应该做什么有不同的看法。这就给我们带来了下一个挑战......
挑战二:我真的需要这些吗?
许多 "如何成为一名数据科学家 "的文章一开始就列举了大量的技能、软件和概念,据说你需要掌握这些。
Spark!Hadoop!Hive!Python!R!Storm!SQL!NoSQL!MaybeSQL?
...你会认为他们是在喊街头霸王游戏中的动作...Hadouken!
结果是,候选人常常因为要学习的东西太多而感到不知所措,不知道从哪里开始。然后,在他们开始后,他们会感到非常忙碌,但往往不知道他们是否取得了真正的进展。
实际上,大多数职位只希望你拥有少数关键技能,但这些关键技能在不同的行业和不同的雇主之间是不同的。例如,一些数据科学家从未接触过大数据技术栈,而另一些则每天都在使用它。当求职者试图为所有事情做准备时,他们会感到不知所措。
因此,我们不是为你提供一个静态的技能清单,说 "去学这个,学完了再回来",而是要提出一个系统的方法来设计你自己的个性化路线图。
解决方案。翻转操作的顺序。
传统的操作顺序是:(1)开始学习和学习技能,(2)撰写简历,然后(3)寻找工作。这就导致了上述的挑战。
相反,让我们把这个过程颠倒过来。我们将从找工作本身开始,以便获得一个具体的目标和方向感。
(function(d){var s=d.createElement('script');s.type='text/javascript';s.src='a.omappapi.com/app/js/api.…
1.选择一个行业。
加里-凯勒在他的《一件事:非凡结果背后令人惊讶的简单真相》一书中,将他成功建立世界上最大的房地产公司之一归功于他每次优先处理一项任务的习惯。他专注于该任务,直到完成,而不是试图进行多任务处理。
我们可以在这里采用同样的心态。数据科学从来不是在真空中完成的,所以每个行业都需要不同的技能、编程语言和资质。
将你的初步搜索限制在一个行业内有很多好处。这不仅会减少要研究的课题数量,而且还能让你开始建立宝贵的领域知识,并增加**相关的组合项目。**这些将使你在面试过程中获得巨大的优势。
根据Glassdoor.com的分类,数据科学家的一些热门行业包括。
- 生物技术和制药业
- 市场营销与广告
- 银行和金融服务
- 互联网和技术
- 媒体和出版业
- 还有更多...
请注意,每个行业的机会数量将因城市而异。例如,在写这篇文章时,旧金山有269个互联网和技术职位,只有116个银行和金融服务职位,而纽约有166个互联网和技术职位,有高达595个银行和金融服务职位。
因此,我们建议去Glassdoor.com > 工作,然后在你想工作的几个城市搜索数据科学家的职位,然后点击更多>行业下拉,找到这些城市的行业列表。
在Glassdoor.com上按行业缩小范围
2.锁定5个目标职位。
接下来,到Glassdoor、LinkedIn Jobs或Indeed等招聘网站,搜索你所选行业的数据科学职位。不要只限于搜索 "数据科学家"。试试其他术语,如数据分析师,机器学习工程师,或定量分析师。
你会发现,问题是选择太多,而不是太少,所以我们要排除许多选择。开始阅读列表,试着对工作有一个定性的感觉。你会使用哪种软件?你将进行哪些类型的分析?你会和谁一起工作?
当你读完这些列表时,剔除那些。
- (A) 不是你会感兴趣的职位。这听起来很明显,但许多人陷入了 "那份工作听起来够好 "的陷阱。当真正到了准备阶段的时候,"足够好 "的心态并不能提供必要的动力。剔除那些噪音,调整到你真正想得到的职位的信号。
- (B) 在你的目标时间框架内,有一些不现实的要求。例如,如果一个职位要求有博士学位,而你却没有,那么不先回学校读书就瞄准这个职位可能是不现实的。当然,回到学校是一个选择,但也有很多优秀的数据科学家职位不需要高级学位。
现在,如果你离申请还有几个月的时间,你可能会想,现在搜索目标职位将是一种浪费时间的行为。毕竟,这些职位到时候不是已经被填补了吗?
嗯,是的,这些特定的职位到时候很可能会被填补,但这不是这一步的重点。这一步的重点是为我们确定**具体目标做准备。**这一步将帮助你确定你自己 理想的数据科学家职位的要求。
一旦你找到了你的5个目标职位,下载并保存它们的完整工作描述。我们将在下一步中需要它们。
3.创建一个 "技能档案"。
在上一步骤中,我们对目标职位有了定性的了解。现在,我们要把这些有用的、可操作的信息提炼成 "技能简介"。
看一下每个职位的职责和要求,试着挑出那些重复出现的职位。一个好的经验法则是,写下任何在5个目标职位描述中至少出现3个的技能。
以下是我们从5个技术领域的数据科学家职位中整理出的一个技能概况示例(截图只显示了职位描述中的要求部分)。
技能简介示例
如你所见,在5个目标职位中至少有3个出现的技能包括。
- 脚本语言(Python)
- 机器学习(回归、分类、聚类)
- A/B测试(统计测试和实验设计)
- 沟通技巧
- 高级SQL
现在我们正在谈论!我们从潜在的几十种技能、主题和软件下降到只有5种。其中一些技能有子技能和子概念,但为了研究和准备的目的,我们可以把这些技能中的每一个当作一个单一的技能包。
当然,有一些工作描述中的 "好东西 "被我们遗漏了,但这对现在来说是好的。技能简介使我们能够专注于加强那些能够给我们带来最大收益的技能。
请记住,成功的候选人很少是完全合格的。大多数情况下,你只需要具备60%-80%的资格,就有可能获得一份工作的现实机会。雇主们明白,大多数人仍然需要在工作中学习更多的知识。
4.写下你的 "未来简历"。
在1932年世界系列赛第三场比赛的第五局,棒球传奇人物贝比-鲁斯走到莱特利球场的投手丘上,用手指着中场看台。我将在那里击出一个全垒打...
下一球投出,...... "咔嚓!"。球棒接住了,让球腾空而起,正是他刚才指着的地方。这个 "叫号球 "是历史上最著名的全垒打之一。
贝比-鲁斯的叫号球
这基本上就是我们接下来要做的事情。根据上一步的技能简介,我们将写出我们未来的简历,它将是令人印象深刻而又现实的。
假设你明天要申请这5个目标职位,但你可以按照3-6个月后的样子来写你的简历。作为一个数据科学家候选人,你的最佳版本会是什么样子?
这里有一些关于包括什么的想法。
- 如果你的简历有一个 "技能 "部分,就继续列出技能简介中的那些内容。
- 如果你目前正在工作,是否有任何你可以加入的项目,可以给你带来相关的技能或经验?如果有,就把它们包括进去。
- 如果你目前在学校,是否有任何你可以参加的课程,可以给你带来相关的技能或经验?如果有的话,就把它们包括进去。
- 是否有任何你想解决的副业项目,并将其添加到你的作品集中?如果有的话,就把它们包括进去。与你想加入的行业有关的项目将获得加分。
提示:在写你未来的简历时,你可以使用不同的字体颜色以获得清晰的印象。
如果你开始感到不知所措或被拉到太多的方向,请回到你的未来简历和技能简介,以重新确定自己的中心。你的未来简历会给你一个具体的目标,而且它可以成为一个自我实现的预言。
资源。
5.开始学习和练习。
现在我们有了我们的技能档案和未来的简历,我们终于准备好开始学习、研究和填补任何空白。换句话说,现在是时候实现那份未来的简历了。
其他指南往往从这一步开始,这就像跳上一辆车,只是朝着你的目的地的大方向起飞。相反,我们选择先安装一个GPS,这样我们会更快、更可靠地到达目的地。
这里的过程很简单,而且是反复的。
- 挑选一个你所缺少的技能/概念。如果编程是其中之一,那么我们建议从这个开始。编程的能力,特别是在Python或R中,将使你更快地学习其他概念,因为你将能够实际执行它们,并在实践中学习。
- 挤出X周的时间来吸收关于该技能/主题的一切。X是一个你设定的数字,取决于你的个人情况。关键是你必须提前设定X,这将给你一个实际的最后期限......就像你在X周后有一个考试。帕金森定律指出:*"工作的扩大,是为了填补完成工作的时间。"*我们发现,在自学期间,这一点尤其正确。自我设定的最后期限可以减少压力和不知所措,因为它们提供了具体的里程碑,可以作为目标。
- 掺入大量的实践练习。例如,如果你在学习SQL,那就抓一个数据集,把它导入数据库服务器,在学习JOIN、GROUP BY等的同时,练习写查询。
- **冲洗并重复(1)-(3)。**通过你在步骤3中创建的技能档案,使你的方法更加完善。当然,如果你觉得你在X周后对某一特定主题的学习还不够,你可以随时回来。
有些候选人可能需要6个月或更长时间来学习所有知识,而其他人可能只需要刷一个星期左右。这完全取决于你现有的技能组合在数据科学中的转移程度。
把这当作对自己的长期投资,不要因为害怕 "错过 "机会而急于求成。花点时间,因为一旦你准备好了,总会有更多的机会。
提示:我们建议每周设定一致的学习区块。把这些区块当作你不能跳过的课程。
资源。
6.融入端到端的项目。
在你学习的时候,每隔一个周末尝试一个端到端项目。从一个真实世界的数据集开始,提出一个有趣的问题,然后尝试自己去回答。
这可能包括。
- 清理数据
- 把它整理成新的格式
- 设计特征
- 用机器学习训练一个模型
- 创建可视化
- 和/或运行假设测试
让这些项目作为**你进展的晴雨表。**例如,对于你的第一次尝试,你可能会发现你甚至不知道如何构建一个项目或在哪里找到数据。这没关系!这些项目是为了让你知道你不知道的东西。
正如美国前国防部长唐纳德-拉姆斯菲尔德曾经说过。
"有一些已知的事情。这些是我们知道的事情。还有已知的未知数。这就是说,有些事情我们知道我们不知道。但也有**未知的未知数。**这些是我们不知道我们不知道的事情。"
这些端到端的项目揭示了那些未知的未知数,把它们变成了已知的未知数(从而使你能够解决它们,使它们成为已知的未知数)。
此外,项目能让你保持动力,帮助你巩固知识,并在你的简历上看起来令人印象深刻。它们也会为你在未来的面试中提供很好的谈话内容。
正如你所知道的,我们绝对喜欢把项目作为一种学习工具,而且我们坚信它们是为数据科学工作做准备的最佳方式。
资源。
7.达到你的阶段性目标,然后就可以申请了!
在学习模式和正式找工作之间的徘徊导致许多候选人停滞不前。你怎么知道你已经做了足够的准备?你准备好了吗?你有没有错过什么?
这些担忧很常见,也很合理,但有一个简单的方法可以解决:事先选定具体的里程碑......一旦你达到了这些里程碑,就开始申请。我们推荐基于项目的里程碑。
例如,一旦你完成了5个你满意的端到端项目,就把它们润色一下,更新你的简历(即修改或确认步骤4中的 "未来简历"),然后开始申请。
你可能觉得还没有完全准备好,但这很好!对任何候选人来说,很少有100%准备好的感觉,所以关键是要保持势头,不断地学习。
面试过程本身将是一个新的挑战。一旦你达到了你的里程碑就开始申请,你可以轻松地进入求职,并获得更多的机会来练习。
8.为面试做准备。
只要有足够的准备时间,尽管没有任何超能力,蝙蝠侠也能打败任何人。让我们从早期开始 "蝙蝠侠 "的面试过程。
许多顶级公司至少有3轮面试。
第一轮 - 电话筛选
这通常是人力资源部门的面试,但你可能会被问到概念问题,以筛选你对数据科学和机器学习的理解。
为了准备电话筛选,练习(但不要背诵)你对常见面试问题的回答。此外,回顾机器学习、A/B测试或其他任何你需要的核心技能的关键概念。
第二轮 - 带回家的挑战
这些是带有数据集的分析挑战,你将有~24-48小时来回答多个目标。
准备回家挑战的最好方法是继续完成端到端项目,因为它们确保你覆盖所有的基础。在完成一个项目后,还要练习修改/重构你的代码,使其干净、简明、有注释。
为了完成分析性的带回家的挑战,你需要准备好项目范围和规划、探索性分析、数据清理、特征工程、建模(回归、分类、聚类)、A/B测试、以及沟通、可视化和写作。
第三轮 - 现场 "超级日"
这通常是一个充满分析性案例问题、SQL编码挑战、技术面试和行为面试的一天。
至少,你可以期待更多前几轮的挑战,无论是数量还是难度。此外,根据雇主的情况,你可能会看到新的面试形式,如类似咨询的案例问题或SQL练习。
好消息是,到目前为止,你所做的工作应该已经让你在准备方面有了巨大的进步。现在只需要通过最后的冲刺。
资源。
9.全场压迫!
全场压迫 "这个词来自于篮球,它指的是防守方在整个球场上对对手进行压迫,而不是只在自己的篮筐附近。这种战术会迅速消耗能量,所以只保留在关键时刻使用。
全场紧逼
一旦你进入求职的高潮,我们建议进入全场紧逼。尽可能地减少分心,真正加大努力。
学习。申请。面试。学习。申请。面试。学习。申请...
在一天结束时,数据科学家职位是有竞争力的,但它仍然只是一个数字游戏。保持势头的最好方法,特别是在遇到挫折或拒绝时,是让你的管道充满你所期待的机会。
这不一定容易,但如果你坚持下去,你会达到目的。
"野心是通往成功的道路。坚持是你到达的交通工具"。~ 比尔-布拉德利