数据科学学习指南-七-

147 阅读12分钟

数据科学学习指南(七)

原文:zh.annas-archive.org/md5/9950f82165bee426119f99afc3ab612d

译者:飞龙

协议:CC BY-NC-SA 4.0

第二十二章:附加材料

在这里收集了多种资源,更深入地探讨了本书中的主题。除了这些主题的建议,我们还提供了轻描淡写的几个主题的资源。这些资源按照它们在书中出现的顺序进行组织:

本书涵盖了如何分析时间序列数据,比如谷歌流感趋势。

如果您希望了解问题与数据之间的相互作用,我们推荐阅读“问题、答案和统计”。《什么是问题?》将问题与所需分析类型联系起来。

更多有关抽样主题的内容可在抽样:设计与分析中找到。该书还包括了目标人群、访问框架、抽样方法和偏见来源的处理。

这些工具包将帮助您更多了解数据的人文背景和伦理道德。

这份简明的白宫报告提供了数据隐私的指导原则和理由。

Ramdas 在我们 2019 年秋季的“数据科学原理与技术”课上就偏见、辛普森悖论、p-值调整等主题进行了一场有趣且富有启发性的讲座。我们推荐从讲座中获取他的幻灯片。

  • Freedman, David 等人。统计学,第 4 版。纽约:Norton,2007 年。

参见统计学,了解关于瓮模型、置信区间和假设检验的入门处理。

Owen 的在线文本为模拟提供了坚实的入门。

  • Pitman, Jim。概率论。纽约:Springer,1993 年。

    Blitzstein, Joseph K. 和 Jessica Hwang。概率论导论。纽约:Chapman and Hall,2014 年。

我们建议阅读ProbabilityIntroduction to Probability,以更全面地学习概率。

Mathematical Statistics: Basic Ideas and Selected Topics Volume I中,您可以找到中位数最小化绝对误差的证明。

Python for Data Analysis深入介绍了pandas

经典著作The Essence of Databases正式介绍了 SQL。W3Schools 提供了 SQL 基础知识。Designing Data-Intensive Applications调查并比较了不同的数据存储系统,包括 SQL 数据库。

Principles of Data Wrangling: Practical Techniques for Data Preparation是数据清洗的良好资源。

如何处理缺失数据,请参阅Sampling: Design and Analysis中的第八章以及Statistical Analysis with Missing Data

Exploratory Data Analysis提供了对 EDA 的优秀介绍。

Density Estimation for Statistics and Data Analysis详细介绍了平滑密度曲线。

查看 Fundamentals of Data Visualization 以获取更多有关可视化的信息。我们的指南与 Wilke 的不完全匹配,但它们接近,并且了解有关该主题的各种观点是有帮助的。

参见 ColorBrewer2.0 了解更多有关调色板的信息。

参见 Osborne 获取更多有关校准的信息。

你可以在许多在线资源中练习正则表达式。我们推荐前述的教程,正则表达式检查器,关于该主题的入门指南和书籍。

Applied Regression Analysis and Generalized Linear ModelsAn Introduction to Statistical Learning 中的前几章讨论了主成分。

“NetCDF 的美丽” 是一个关于如何处理 netCDF 气候数据的有用视频教程。

  • Richardson, Leonard 和 Sam Ruby。RESTful Web Services。Sebastopol, CA:O’Reilly,2007 年。

有许多关于网络服务的资源。我们推荐 RESTful Web Services 提供易于理解的入门材料。

关于 XML 的更多信息,请参阅 XML and Web Technologies for Data Sciences with R

有关建模的许多主题,包括转换、one-hot 编码、模型选择、交叉验证和正则化,在几个来源中都有涵盖。我们推荐 Python 线性模型应用回归分析与广义线性模型统计学习导论应用线性回归应用回归分析与广义线性模型 中的“线性模型的向量几何”对最小二乘法的向量几何给出了有益的阐述。“应用回归分析与广义线性模型”中的“诊断非正态性、非恒定误差方差和非线性”以及“Python 线性模型”中的“解释”涵盖了加权回归的主题。

这篇 IEEE Spectrum 对 Andrew Ng 的采访深入探讨了测试集与真实世界之间的差距。

统计学习导论 中的“超越线性”介绍了使用正交多项式的多项式回归。

想要了解更多关于断棍回归的信息,请参阅“弯曲电缆回归理论与应用”。

关于置信区间、预测区间、检验和自助法的更详细介绍,请参阅 数理统计与数据分析

“关于 p 值的 ASA 声明:背景、过程和目的” 提供了对 p 值的有价值见解。 “科学中的统计危机” 解决了 p-hacking 问题。

  • Hettmansperger, Thomas。 “非参数秩检验。”统计科学国际百科全书 中,由 Miodrag Lovric 编辑,970–972. 纽约:Springer,2014 年。

你可以在“非参数秩检验”中找到有关秩检验和其他非参数统计信息。

该领域中开发线性模型的技术在“名义学术艺术”中有所探讨。

“应用回归分析和广义线性模型”中的“Logit 和 Probit 模型用于分类响应变量”涵盖了逻辑回归的最大似然方法。而“分类”在统计学习导论中更详细地涵盖了灵敏度和特异度。

  • Wasserman, Larry. “统计决策理论。”在统计学全景。纽约:Springer,2004.

“统计决策理论”深入探讨了损失函数和风险。

编程集体智能 covers the topic of optimization

See Python 应用文本分析 for more on text analysis.

第二十三章:数据来源

本书分析的所有数据都可以在书籍网站GitHub 存储库上找到。这些数据集来自开放的存储库和个人。我们在此感谢所有数据来源,并在适当的情况下包括我们存储库中数据的文件名、资源描述、原始来源链接、相关出版物以及作者/所有者。

首先,我们为书中的四个案例研究提供数据来源。我们对这些案例研究中的数据分析基于研究文章或一篇博客文章。我们通常沿着这些来源的研究方向进行简化分析,以匹配书籍的水平。

以下是四个案例研究:

seattle_bus_times.csv

华盛顿州交通中心的 Mark Hallenbeck 提供了西雅图公交数据。我们的分析基于 Jake VanderPlas 的《等待时间悖论,或者,为什么我的公交车总是迟到?》

aqs_06-067-0010.csvlist_of_aqs_sites.csvmatched_pa_aqs.csvlist_of_purpleair_sensors.jsonpurpleair_AMTS

研究空气质量监测的数据可从环境保护局的 Karoline Barkjohn 获取。这些数据最初由 Barkjohn 及其合作者从美国空气质量系统PurpleAir获取。我们的分析基于 Barkjohn、Brett Gantt 和 Andrea Clements 的《针对使用 PurpleAir 传感器收集的 PM2.5 数据的全美纠正的开发与应用》

donkeys.csv

Kate Milner 代表英国驴保护协会收集了肯尼亚驴研究的数据。Jonathan Rougier 在paranomo 包中提供数据(点击链接下载)。我们的分析基于 Milner 和 Rougier 的《如何在肯尼亚乡间称量驴子》

fake_news.csv

手工分类的假新闻数据来自 Kai Shu 等人的《FakeNewsNet:一个用于研究社交媒体上假新闻的数据存储库,包含新闻内容、社会背景和时空信息》

除了这些案例研究外,我们还在整本书中使用了其他 20 多个数据集作为示例。我们按照这些数据在书中出现的顺序感谢提供这些数据集的个人和组织:

gft.csv

谷歌流感趋势数据可从Gary King Dataverse获取,这些数据的绘图基于 David Lazer 等人的《谷歌流感的寓言:大数据分析中的陷阱》

WikipediaExp.csv

Arnout van de Rijt 提供了维基百科实验的数据。这些数据在 Michael Restivo 和 van de Rijt 的“同行生产中非正式奖励的实验研究”中进行了分析。

co2_mm_mlo.txt

国家海洋和大气管理局(NOAA)全球监测实验室测得的毛纳罗亚的 CO[2]浓度数据。

pm30.csv

我们从PurpleAir 地图下载了一天和一个传感器的空气质量测量数据。

babynames.csv

美国社会保障局提供所有社会保障卡申请的姓名。

DAWN-Data.txt

2011 DAWN 调查关于与药物相关的急诊室就诊由美国物质滥用和精神健康服务管理局管理。

businesses.csvinspections.csvviolations.csv

旧金山餐厅检查分数数据来自DataSF

akc.csv

狗品种数据来自 Information Is Beautiful 的“最佳展示:终极数据狗”可视化,并最初从美国肯尼尔俱乐部获取。

sfhousing.csv

旧金山湾区房屋销售价格是从旧金山纪事报的房地产页面抓取的。

cherryBlossomMen.csv

年度樱花十英里赛跑的跑步时间是从比赛结果页面抓取的。

earnings2020.csv

每周收入数据由美国劳工统计局提供。

co2_by_country.csv

年度国家 CO[2]排放数据来自我们的世界数据

100m_sprint.csv

100 米冲刺时间来自FiveThirtyEight,并且基于 Josh Planos 的“世界上最快的人依然在追逐尤塞恩·博尔特”

stateoftheunion1790-2022.txt

国情咨文地址编制来自美国总统项目

CDS_ERA5_22-12.nc

我们从气候数据存储,由欧洲中期天气预报中心支持,收集了这些数据。

world_record_1500m.csv

1500 米世界纪录来自维基百科页面“1500 米世界纪录进展”

the_clash.csv

The Clash 歌曲可以在Spotify Web API上找到。数据的检索遵循 Steven Morse 的“在 Python 中探索 Spotify API”

catalog.xml

XML 植物目录文档来自W3Schools 植物目录

ECB_EU_exchange.csv

汇率数据来自欧洲央行

mobility.csv

这些数据可在Opportunity Insights获取,我们的例子遵循 Raj Chetty 等人的“何处是机会之地?美国代际流动的地理”

utilities.csv

Daniel Kaplan 的家庭能源消耗数据可供下载,并出现在他的第一版统计建模:一种新方法(自行出版,CreateSpace)中。

market-analysis.csv

Stan Lipovetsky 提供这些数据,与他的论文“通过相关性正则化的回归”中的数据相对应。

crabs.data

蟹的测量数据来自加州鱼类和野生动物部,可从Stat Labs 数据库下载。

black_spruce.csv

Roy Lawrence Rich 为他的论文“边界水道地区野外大风干扰。与 1999 年 7 月 4 日倒伏相关的森林动态和发展变化”收集了风灾树木数据。这些数据在alr4中在线可得。我们的分析基于 Weisberg 的应用线性回归中的“Logistic Regression”。