数据科学入门 pdf 全文内容详细分享

172 阅读10分钟

数据科学入门

pan.baidu.com/s/1HAp6Q8pq…

1.全能数据科学家成长指南,长居美亚机器学习热销榜; 2.新版基于Python 3.6,新引入了类型注释等许多功能; 3.根据数据科学近几年的发展,新增了关于深度学习、统计学和自然语言处理等主题,让图书内容与时俱进。

  • 学到一堂Python速成课。
  • 学习线性代数、统计学和概率论的基础知识,并能将其灵活地用于数据科学项目。
  • 掌握如何获取、探索、清洗、处理和调整数据。
  • 深入理解机器学习概念,尤其是深度学习概念。
  • 运用k最近邻法、朴素贝叶斯、线性回归、逻辑回归、决策树、神经网络和聚类等算法实现数据模型。
  • 探索自然语言处理、网络分析、推荐系统、数据库与SQL、MapReduce。

无论你身处哪个行业,数据都能成为你的好帮手。善于从凌乱的数据中提取有用的信息,你就能在面对业务难题时游刃有余,用数据说话,为决策找到有力的支撑。

欢迎进入数据科学世界!在本书中,你将化身为虚构公司DataSciencester的员工,从零开始数据科学工作,亲手构建工具、实现算法,最终从数据科学新手蜕变为全能的数据科学家。在第1版的基础上,本书升级了所有代码示例,并新增了深度学习、统计学、自然语言处理等相关内容。

目录
第 2版前言 xiii
第 1版前言 xvii
第 1章 导论 1
11 数据的崛起 1
12 什么是数据科学 1
13 激励假设:DataSciencester 2
131 寻找关键联系人 3
132 你可能知道的数据科学家 5
133 工资和工作年限 8
134 付费账户 10
135 感兴趣的主题 10
136 展望 12
第 2章 Python速成 13
21 Python之禅 13
22 获取Python 14
23 虚拟环境 14
24 空白格式 15
25 模块 16
26 函数 17
27 字符串 18
28 异常 19
29 列表 19
210 元组 21
211 字典 22
212 计数器 24
213 集 24
214 控制流 25
215 真和假 26
216 排序 27
217 列表解析 27
218 自动化测试和断言 28
219 面向对象编程 29
220 迭代器和生成器 31
221 随机性 ..32
222 正则表达式 33
223 函数式编程 34
224 压缩和参数拆分 34
225 args和kwargs 35
226 类型注释 36
227 欢迎来到DataSciencester 39
228 进一步探索 393章 数据可视化 40
31 matplotlib 40
32 条形图 42
33 线图 45
34 散点图 46
35 延伸学习 484章 线性代数 49
41 向量 49
42 矩阵 53
43 延伸学习 565章 统计学 57
51 描述单个数据集 57
511 中心倾向 59
512 离散度 61
52 相关 62
53 辛普森悖论 64
54 相关系数的其他注意事项 65
55 相关与因果 66
56 延伸学习 666章 概率 68
61 依赖和独立 68
62 条件概率 69
63 贝叶斯定理 71
64 随机变量 72
65 连续分布 72
66 正态分布 73
67 中心极限定理 76
68 延伸学习 787章 假设和推论 79
71 统计假设检验 79
72 实例:掷硬币 79
73 p值 82
74 置信区间 84
75 p-Hacking 84
76 实例:运行A/B 测试 85
77 贝叶斯推断 86
78 延伸学习 898章 梯度下降 90
81 梯度下降的思想 90
82 估算梯度 91
83 使用梯度 94
84 选择正确步长 94
85 使用梯度下降拟合模型 95
86 小批次梯度下降和随机梯度下降 96
87 延伸学习 989章 获取数据 99
91 stdin和stdout 99
92 读取文件 101
921 文本文件的基础 101
922 限制的文件 102
93 网络抓取 104
94 使用API 106
941 JSON和XML 106
942 使用无验证的API 107
943 寻找API 108
95 实例:使用Twitter API 109
96 延伸学习 112
第 10章 数据工作 113
101 探索数据 113
1011 探索一维数据 113
1012 两个维度 115
1013 多维数据 116
102 使用NamedTuple 18
103 数据类 119
104 清洗和修改 120
105 数据处理 122
106 数据调整 25
107 题外话:tqdm 126
108 降维 127
109 延伸学习 133
第 11章 机器学习 134
111 建模 134
112 什么是机器学习 135
113 过拟合与欠拟合 135
114 正确性 138
115 偏差–方差权衡 140
116 特征提取与选择 141
117 延伸学习 142
第 12章 k最近邻法 143
121 模型 143
122 实例:鸢尾花数据集 145
123 维数灾难 148
124 进一步探索 152
第 13章 朴素贝叶斯算法 153
131 一个简易的垃圾邮件过滤器 153
132 一个复杂的垃圾邮件过滤器 154
133 算法实现 155
134 测试模型 157
135 使用模型 158
136 延伸学习 161
第 14章 简单线性回归 162
141 模型 162
142 使用梯度下降法 165
143 最大似然估计 166
144 延伸学习 166
第 15章 多元回归 167
151 模型 167
152 最小二乘模型的进一步假设 168
153 拟合模型 169
154 解释模型 171
155 拟合优度 171
156 题外话:Bootstrap 172
157 回归系数的标准误差 173
158 正则化 175
159 延伸学习 177
第 16章 逻辑回归 178
161 问题 178
162 logistic函数 180
163 应用模型 183
164 拟合优度 184
165 支持向量机 185
166 延伸学习 188
第 17章 决策树 89
171 什么是决策树 189
172 熵 191
173 分割的熵 193
174 创建决策树 194
175 综合运用 196
176 随机森林 199
177 延伸学习 199
第 18章 神经网络 200
181 感知器 200
182 前馈神经网络 202
183 反向传播 205
184 实例:Fizz Buzz 207
185 延伸学习 210
第 19章 深度学习 211
191 张量 211
192 层抽象 213
193 线性层 215
194 把神经网络作为层序列 218
195 损失函数与优化器 219
196 实例:重新设计异或网络 221
197 其他激活函数 222
198 实例:重新解决Fizz Buzz问题 223
199 softmax函数和交叉熵 224
1910 丢弃 227
1911 实例:MNIST 227
1912 保存和加载模型 231
1913 延伸学习 232
第 20章 聚类分析 233
201 原理 233
202 模型 234
203 实例:聚会 236
204 选择聚类数目k 238
205 实例:色彩聚类 239
206 自下而上的分层聚类 241
207 延伸学习 246
第 21章 自然语言处理 247
211 词云 247
212 n-gram 语言模型 249
213 语法 252
214 题外话:吉布斯采样 254
215 主题建模 255
216 词向量 260
217 递归神经网络 268
218 实例:使用字符级RNN 271
219 延伸学习 274
第 22章 网络分析 275
221 中介中心性 275
222 特征向量中心性 280
2221 矩阵乘法 280
2222 中心性 282
223 有向图与PageRank 283
224 延伸学习 286
第 23章 推荐系统 287
231 人工管理 288
232 推荐流行事务 288
233 基于用户的协同过滤 289
234 基于项目的协同过滤 292
235 矩阵分解 294
236 延伸学习 298
第 24章 数据库与SQL 299
241 CREATE TABLEINSERT 299
242 UPDATE 302
243 DELETE 303
244 SELECT 304
245 GROUP BY 306
246 ORDER BY 308
247 JOIN 309
248 子查询 311
249 索引 312
2410 查询优化 312
2411 NoSQL 313
2412 延伸学习 313
第 25章 MapReduce 314
251 实例:单词计数 315
252 为什么是MapReduce 316
253 更一般化的MapReduce 317
254 实例:状态分析更新 318
255 实例:矩阵乘法 320
256 题外话:组合器 321
257 延伸学习 322
第 26章 数据伦理 323
261 什么是数据伦理 323
262 讲真的,什么是数据伦理 324
263 是否应该关注数据伦理 324
264 建立不良数据产品 325
265 精确与公平之间的较量 325
266 合作 327
267 可解释性 327
268 推荐 327
269 异常数据 328
2610 数据保护 329
2611 小结 329
2612 延伸学习 329
第 27章 数据科学前瞻 330
271 IPython 330
272 数学 331
273 不从零开始 331
2731 NumPy 331
2732 pandas 331
2733 scikit-learn 331
2734 可视化 332
2735 R 332
2736 深度学习 332
274 寻找数据 333
275 从事数据科学工作 333
2751 Hacker News 333
2752 消防车 333
2753 T恤 334
2754 地球仪上的推文 334
2755 你的发现 335
关于作者 336
关于封面 336