为了成为更好的数据科学家,你必须参加的在线课程

232 阅读11分钟

一些背景,曾经的事......

早在2015年,我就开始从事数据科学。这并不是一个有意的举动,而是对我的雇主的需求的回应。我当时在一家为西班牙公司提供自动化服务的公司工作,我们需要利用数据来实现复杂任务的自动化**,而这些任务的规则不容易被硬编码。**我刚刚毕业,是一名工程师,当时正处于可怕的经济危机中,我有一些统计建模的知识,并能熟练使用MATLAB。

在2015年,没有专门的数据科学学位或训练营来启动这个领域(至少在西班牙),自然最接近的研究,你可以有,按顺序。数学(在西班牙,重点是成为公共教育系统的教师/教授)或软件工程师(他们中的大多数人对应用程序开发或创造新的 "X "的Uber更感兴趣,而不是当时无聊的数据科学的东西)。

在这种情况下,大多数数据科学从业者都是一群刚毕业的学生,他们大多是量化专业的学生(很多来自不同部门的工程师,以及来自经济学和类似专业的人)。在这种情况下,我发现了一些珍贵的在线资源,这些资源在当时帮助了我,并且从长远来看,使我在今天(2020年)成为一个更好的数据科学家。

免责声明:在线课程不会让你成为一名数据科学家

要成为一名数据科学家,你需要结合以下几点。

  • 量化的学位(不是严格意义上的强制性,但有帮助)。

  • 有关所使用的工具和技术的实际知识。这是你可以在专门的训练营中得到的东西,比如佩德罗教授的训练营。

  • 在真实世界和相关项目上的实践经验。这是本清单中最重要的一点,也是最难得到的东西。

  • 被优秀的专业人士所包围。正如我的老上司曾经告诉我的那样:如果你是房间里最聪明的人,你就应该开始担心了。

  • 对数据科学的工作方式有很好的理解,包括对数据结构、系统和算法在引擎盖下如何工作的理论知识。

这最后一点是本帖的重点。我在这里要介绍的在线课程是那些专注于获得数据科学的理论基础的课程。这些课程有一些共同的特点。

  • 不是典型的DataCamp纳米课程,你可以在通勤时在一个小时内完成。那些是你必须投入时间的漫长而艰苦的课程。

  • 由顶级大学的优秀教授授课。

  • 在行业中非常受重视,被公司、招聘人员等重视。

这些课程并不能使你成为一名数据科学家,但当你在现实世界的项目中练习你的技能,学习所需的工具等,这些课程将为你作为数据科学家的长期成功奠定基础,并将使你与那些训练机器学习模型和编写代码但不知道真正发生了什么和为什么的平庸的数据科学家区分开来。

这篇文章没有得到任何一个课程的赞助。

这一点很重要,请牢记。与其他推荐数据科学课程的帖子和列表相反,这篇文章对你来说有两个好处。

  • 我已经完成了这里列出的每一门课程,我推荐它们的理由是基于我的个人经验,它们是值得推荐的。我将附上每门课程的相应证书来证明我的话。

  • 显然,这些课程的作者都没有赞助我在这里列出他们的内容。

这些课程

让我们开始吧,按时间顺序......

1.计算机科学和使用Python编程简介

Eric Grimson

Eric Grimson

这是麻省理工学院的Eric Grimson教授的一门真正优秀的课程。由于我有一些MATLAB的经验,作为一个数据科学家,我的第一个目标是学习Python。当我学习这门课程时,内容是为Python 2制作的,但最近已经更新到Python 3。

这门课程的有趣之处在于,它介绍了关于计算机科学的重要概念,这些概念通常被许多数据科学家搁置一边,例如。

  • 数据结构

  • 计算复杂性(大O记法

  • 面向对象的编程

  • 算法

  • 递归

如果你是一个没有Python知识的有经验的数据科学家,应该考虑参加这个课程,因为它是现在的标准。

我的结业证书

2.计算思维和数据科学简介

这是上一门课程的第二部分。它的重点是**应用于统计的编程。你可以期待编码大量的模拟。**大量的乐趣。

我的结业证书

3.分析边缘

这是Dimitris Bertsimas教授的一门好课程。它的重点是机器学习和优化算法的混合,以及使用ggplot一些可视化。课程内容包括。

  • 线性模型

  • 决策树

  • 随机森林

  • 聚类(k-means)

  • 线性编程

  • 一些NLP(现在有点过时了

所有内容都是用R语言讲授的。

我的结业证书

4.机器学习

Andrew Ng

Andrew Ng

这个课程不需要介绍。这可能是关于机器学习的最有名的课程,也是过去几年中关于ML的炒作的一大功臣。

这门课程是由斯坦福大学的著名教授和人工智能倡导者Andrew Ng讲授的**。该课程非常好,重点是解释最流行的机器学习算法,包括其数学基础。**

这是该领域中最有价值的课程之一。

早在2016年,这门课程是用MATLAB/Octave教授的。我最近读到,他们正在进行从MATLAB到Python的更新,但这个更新还没有发布。

我的结业证书

5.从数据中学习

这门有趣的课程由加州理工学院的Yaser S. Abu-Mostafa教授讲授,深入探讨了什么是统计学习,为什么它是可行的,以及如何以正确的方式进行统计学习,涵盖了偏见-差异权衡、过度拟合、正则化、验证、泛化理论等方面。

它以理论和严谨的方式解释了机器学习的基础,不建议没有数学背景的人阅读。

其内容基于同名书籍。

Learning From Data (Book)

从数据中学习(书

我的结业证书

6.深度学习专业

deeplearning.ai

deeplearning.ai

这是Andrew Ng教授和他的新教育企业deeplearning.ai的著名的深度学习专业,也是当今该领域中最有价值的证书之一

这是一个由5门课程组成的长期专业课程,专注于神经网络,是当今最重要的算法之一,也是处理非结构化数据(图像、声音、文本、视频等)的最佳方法。

它从第一门课程的基础和****神经网络背后的数学到超参数调整,项目规划和战略,卷积架构最后是序列模型架构。

这些课程具有高度的结构性、严谨性和基础性,同时也很实用,有很多真实的使用案例。

我的结业证书

这些是我向你推荐的最优质的课程。

尽管如此,它们并不是我在这个领域开始后所做的唯一课程。我一直在学习某种课程,有时甚至同时学习两门;其中大部分是关于数据科学的,尽管我有时也会拓宽我对其他主题的知识,如城市设计、能源等等。如果有兴趣的话,我可能会在另一篇文章中介绍这个话题。

你可以在我的LinkedIn个人资料中查看我完成的全部课程列表

值得一提的是

有一些课程并不符合上述部分的要求,但值得一提。

1.深度学习简介

这是莫斯科高等经济学院的一门课程。没有被列在上面是因为它的内容非常广泛,而且没有很强的结构性,但广泛也可以是它的优势之一。

如果你正在寻找深度学习的简短介绍,其中涵盖了很多架构,而又不太注意背后的数学,并且不想花几个月的时间去学习deeplearning.ai的全部深度学习专业,这就是你的课程。

最后的项目是建立一个能够为图片生成标题的应用程序,非常有趣和好玩。

我的结业证书

2.如何赢得数据科学竞赛。向顶级Kagglers学习

这是机器学习的一个不同的课程。如果我一生中只能参加一门关于机器学习的课程,并且必须选择一门,我会选择这门。

这门课程包括几乎所有你必须知道的成为一个高效的数据科学家的概述,涵盖了重要的主题,如。

  • 探索性数据分析。

  • 许多不同的ML算法,从实用的角度来看(何时,以及为什么你应该为一个特定的任务选择一个而不是其他)。

  • 诸如平均/目标编码的技术。

  • 大量来自Kaggle比赛的真实例子,由比赛获胜者和Kaggle大师如Μαριος Μιχαηλιδης讲解。

虽然这门课程侧重于竞争性的数据科学(Kaggle比赛),与真正的行业机器学习项目不同,后者不仅要获得最好的分数(还要考虑推理速度、维护、鲁棒性等),但你可以获得改善机器学习模型的想法。

我的结业证书

3.医学人工智能专业

派与AI(AI for Medicine启动仪式

这个deeplearning.ai最近推出的专业是关于如何将人工智能应用于医疗行业。

鉴于目前COVID-19的爆发情况,不用说,公共和私人的努力都在为这个公共卫生危机寻找创新的解决方案。

人工智能应用于医疗保健领域被认为是当今的绿地,也是**未来十年最有前途的领域(**从数据科学家的角度来看)。

人工智能不会取代医生,但使用人工智能的医生将取代那些不使用人工智能的医生 - Andrew Ng

在过去的几年里,人工智能解决方案在营销、客户管理、能源等部门有了相当大的发展,但医疗部门一直落后,原因包括:。

  • 与数据隐私和道德考虑有关的行政障碍。

  • 对一个相当传统的部门缺乏兴趣,医生和技术专家之间的沟通并不总是容易。

  • 算法性能是如此关键(人们的生命受到威胁),因此人工智能的实施必须非常谨慎。

最近的这场大流行改变了公众对健康数据使用的看法,政府和公众舆论都更愿意探索人工智能在医学领域的可能性。

这个专业在结构上分为3个课程,涵盖。

  • 医学诊断的人工智能:学习如何根据医学图像等来识别疾病。

  • 医学预后的人工智能:学习如何预测病人的未来健康。

  • 医学治疗的人工智能:学习因果推断、随机对照试验、模型的可解释性。这是专业课中不太有趣的课程,而且,由于它相当新(2020年5月),作业中仍有一些错误。

这些课程从技术角度看不难,但如果你要参加这个专业,最好是你以前有一些数据科学家的经验,因为它主要是解释传统人工智能和医疗人工智能之间的关键差异。有许多不同之处,如。

  • 医疗保健的具体性能指标。

  • 适合医疗图像分割的深度学习架构。

  • 对生存分析的强烈关注。

如果你想10年后仍然是一名数据科学家,在一个竞争非常激烈的环境中,一般的数据科学正成为一种商品,你应该选择这个专业。

谢谢你阅读这篇文章,我希望这些信息能帮助你推进你的职业生涯或学习新的东西。

PS:感谢Miriam Cañones在写这篇文章时提供的反馈。

这篇帖子是原文发表在我的个人网站和博客。