数据科学主要包括两个方面:用数据的方法研究科学和用科学的方法研究数据(好吧,这明显是在玩文字游戏~),前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。
所以大家形容数据科学家“比软件工程师更擅长统计学,比统计学家更擅长统计工程”。看来数学、统计学和机器学习……一样都跑不脱了。
数学的话这里推荐一下可汗学院出的讲解视频,非常经典:网易公开课
麻省理工的线性代数课也值得一看:麻省理工公开课:线性代数_全35集
关于机器学习的资源我之前已经整理过了 ,所以这里就不过多赘述了。偷懒:)
这里主要就介绍一些课程和数据库吧,大致内容是这样的:
1)学习网站
2)从入门到进阶的项目
3)获取数据集的网站
4)工具列表
5)其它
那就继续往下看吧。
一、学习网站
国内的搜了下基本都是零零散散的,专题性不是很强,所以喜欢看视频的话可以去慕课网、网易公开课找主题相关的课程(关键词:机器学习/数据挖掘/数据分析等),实验楼提供文档和在线实操,w3cschool的课也不错,阶段性也比较强。
国外对数据科学可能针对性更强一点,大家可以了解下这几个网站:
二、从入门到进阶的项目
这样写会比较系统,而且都是比较经典的一些项目,大家看看都会不会。
1、初级
刚入门还是会推荐一些比较容易的数据集,而且也不需要复杂的数据科学技术,可以使用基本回归或分类算法来解决。
- 鸢尾花分类:根据可用属性预测花的种类
- 贷款预测:预测贷款是否会获得批准
- Big mart销售预测:预测商店的销售情况
- 波士顿住房数分析:预测自住房屋的中位数值
- 学生在校表现评估:使用分类和聚类技术来处理数据
- 研究身高与体重 :预测一个人的身高或体重
2、中级
中级的话会更有挑战性一点,数据集更大,需要一些良好的模式识别技能。
- 黑色星期五销售预测 :预测购买金额
- 文本挖掘 :根据标签对文档进行分类
- 歌曲年代预测
- 人口普查分析 :预测美国人口的收入水平
- 电影推荐 :向用户推荐新电影
- Twitter情感分析 :确定哪些推文容易受欢迎
3、高级
下面会涉及到神经网络,深度学习,推荐系统等高级主题。
上面的项目都挺有意思的,大家可以跟着动手练练。
又给大家找了几个中文文档:
三、获取数据集的网站
1、亚马逊网络服务
亚马逊在其AWS web service上提供大型数据集,比如
- Google图书的n-gram列表 :大量书籍的常用词汇和词汇组
- Common Crawl Corpus:来自超过50亿个网页的爬行数据
- Landsat图像:地球表面的中等分辨率卫星图像
2、谷歌云平台
和亚马逊一样,谷歌也有一个云托管服务。Google BigQuery公共数据集列出了网页上的所有数据集,比如
3、Kaggle
Kaggle是一个组织机器学习竞赛的数据科学社区,网站上有各种外部贡献的有趣数据集。你可以通过参加比赛从Kaggle下载数据。每个比赛都有自己的相关数据集。在新的 Kaggle Data sets中也有用户提供的数据集。
4、UCI机器学习库 :用户提供的有趣数据集
5、Quandl:经济和金融数据的存储库
6、Twitter :拥有强大的流媒体API
7、Quantopian:开发,测试和操作股票交易算法的网站
四、工具列表
- Tableau :数据可视化分析软件,帮助快速轻松地分析数据
- Bokeh :一个交互式可视化库,面向现代Web浏览器进行演示。它的目标是提供优雅、简洁的多功能图形构造
- Apache Hadoop :允许使用简单的编程模型跨计算机集群分布式处理大型数据集
- D3.js:用于根据数据操作文档的JavaScript库。
- Jupyter :一个开源Web应用程序,允许创建和共享包含实时代码、方程式、可视化和叙述文本的文档。
- OpenRefine:处理凌乱数据的强大工具
- Orange :新手也能用的开源机器学习和数据可视化工具
- KNIME:无缝地混合工具和数据类型
- DataMelt:面向科学家、工程师和学生的免费数学软件,可用于数值计算,统计,符号计算,数据分析和数据可视化等。
- RapidMiner:通过使用最新的机器学习算法和技术(如Tensorflow,Hadoop和Spark)消除了尖端数据科学的复杂性。
五、其它:
- 什么是数据科学?数据科学的基本内容
- 如何成为数据科学家?
- 统计学习方法学习笔记一
- Iris Data Set(鸢尾属植物数据集)
- 数据挖掘的一般过程
- 很棒的机器学习项目
- 数据集大全:25个深度学习的开放数据集
- 数据极客|数据科学交流社区
- 没资源?下一秒就可以加入的10个数据科学项目!
- 最适合练手30个的机器学习开源项目
以上就是我整理的关于数据科学的一些内容,如果不全还请各位大佬多多包涵(o°ω°o)
大家可以补充,我看到也会再更新上来滴。
希望小伙伴们能多分享一点学习经验,带带二师弟~们啊~