《数据科学入门》PDF

388 阅读10分钟

《数据科学入门》

链接: pan.baidu.com/s/1HAp6Q8pq… 提取码: 71b3

1.全能数据科学家成长指南,长居美亚机器学习热销榜;

2.新版基于Python 3.6,新引入了类型注释等许多功能;

3.根据数据科学近几年的发展,新增了关于深度学习、统计学和自然语言处理等主题,让图书内容与时俱进。

  • 学到一堂Python速成课。

  • 学习线性代数、统计学和概率论的基础知识,并能将其灵活地用于数据科学项目。

  • 掌握如何获取、探索、清洗、处理和调整数据。

  • 深入理解机器学习概念,尤其是深度学习概念。

  • 运用k最近邻法、朴素贝叶斯、线性回归、逻辑回归、决策树、神经网络和聚类等算法实现数据模型。

  • 探索自然语言处理、网络分析、推荐系统、数据库与SQL、MapReduce。

无论你身处哪个行业,数据都能成为你的好帮手。善于从凌乱的数据中提取有用的信息,你就能在面对业务难题时游刃有余,用数据说话,为决策找到有力的支撑。

欢迎进入数据科学世界!在本书中,你将化身为虚构公司DataSciencester的员工,从零开始数据科学工作,亲手构建工具、实现算法,最终从数据科学新手蜕变为全能的数据科学家。在第1版的基础上,本书升级了所有代码示例,并新增了深度学习、统计学、自然语言处理等相关内容。


目录

第 2版前言 xiii

第 1版前言 xvii

第 1章 导论 1

11 数据的崛起 1

12 什么是数据科学 1

13 激励假设:DataSciencester 2

131 寻找关键联系人 3

132 你可能知道的数据科学家 5

133 工资和工作年限 8

134 付费账户 10

135 感兴趣的主题 10

136 展望 12

第 2章 Python速成 13

21 Python之禅 13

22 获取Python 14

23 虚拟环境 14

24 空白格式 15

25 模块 16

26 函数 17

27 字符串 18

28 异常 19

29 列表 19

210 元组 21

211 字典 22

212 计数器 24

213 集 24

214 控制流 25

215 真和假 26

216 排序 27

217 列表解析 27

218 自动化测试和断言 28

219 面向对象编程 29

220 迭代器和生成器 31

221 随机性 ..32

222 正则表达式 33

223 函数式编程 34

224 压缩和参数拆分 34

225 args和kwargs 35

226 类型注释 36

227 欢迎来到DataSciencester 39

228 进一步探索 393章 数据可视化 40

31 matplotlib 40

32 条形图 42

33 线图 45

34 散点图 46

35 延伸学习 484章 线性代数 49

41 向量 49

42 矩阵 53

43 延伸学习 565章 统计学 57

51 描述单个数据集 57

511 中心倾向 59

512 离散度 61

52 相关 62

53 辛普森悖论 64

54 相关系数的其他注意事项 65

55 相关与因果 66

56 延伸学习 666章 概率 68

61 依赖和独立 68

62 条件概率 69

63 贝叶斯定理 71

64 随机变量 72

65 连续分布 72

66 正态分布 73

67 中心极限定理 76

68 延伸学习 787章 假设和推论 79

71 统计假设检验 79

72 实例:掷硬币 79

73 p值 82

74 置信区间 84

75 p-Hacking 84

76 实例:运行A/B 测试 85

77 贝叶斯推断 86

78 延伸学习 898章 梯度下降 90

81 梯度下降的思想 90

82 估算梯度 91

83 使用梯度 94

84 选择正确步长 94

85 使用梯度下降拟合模型 95

86 小批次梯度下降和随机梯度下降 96

87 延伸学习 989章 获取数据 99

91 stdin和stdout 99

92 读取文件 101

921 文本文件的基础 101

922 限制的文件 102

93 网络抓取 104

94 使用API 106

941 JSON和XML 106

942 使用无验证的API 107

943 寻找API 108

95 实例:使用Twitter API 109

96 延伸学习 112

第 10章 数据工作 113

101 探索数据 113

1011 探索一维数据 113

1012 两个维度 115

1013 多维数据 116

102 使用NamedTuple 18

103 数据类 119

104 清洗和修改 120

105 数据处理 122

106 数据调整 25

107 题外话:tqdm 126

108 降维 127

109 延伸学习 133

第 11章 机器学习 134

111 建模 134

112 什么是机器学习 135

113 过拟合与欠拟合 135

114 正确性 138

115 偏差–方差权衡 140

116 特征提取与选择 141

117 延伸学习 142

第 12章 k最近邻法 143

121 模型 143

122 实例:鸢尾花数据集 145

123 维数灾难 148

124 进一步探索 152

第 13章 朴素贝叶斯算法 153

131 一个简易的垃圾邮件过滤器 153

132 一个复杂的垃圾邮件过滤器 154

133 算法实现 155

134 测试模型 157

135 使用模型 158

136 延伸学习 161

第 14章 简单线性回归 162

141 模型 162

142 使用梯度下降法 165

143 最大似然估计 166

144 延伸学习 166

第 15章 多元回归 167

151 模型 167

152 最小二乘模型的进一步假设 168

153 拟合模型 169

154 解释模型 171

155 拟合优度 171

156 题外话:Bootstrap 172

157 回归系数的标准误差 173

158 正则化 175

159 延伸学习 177

第 16章 逻辑回归 178

161 问题 178

162 logistic函数 180

163 应用模型 183

164 拟合优度 184

165 支持向量机 185

166 延伸学习 188

第 17章 决策树 89

171 什么是决策树 189

172 熵 191

173 分割的熵 193

174 创建决策树 194

175 综合运用 196

176 随机森林 199

177 延伸学习 199

第 18章 神经网络 200

181 感知器 200

182 前馈神经网络 202

183 反向传播 205

184 实例:Fizz Buzz 207

185 延伸学习 210

第 19章 深度学习 211

191 张量 211

192 层抽象 213

193 线性层 215

194 把神经网络作为层序列 218

195 损失函数与优化器 219

196 实例:重新设计异或网络 221

197 其他激活函数 222

198 实例:重新解决Fizz Buzz问题 223

199 softmax函数和交叉熵 224

1910 丢弃 227

1911 实例:MNIST 227

1912 保存和加载模型 231

1913 延伸学习 232

第 20章 聚类分析 233

201 原理 233

202 模型 234

203 实例:聚会 236

204 选择聚类数目k 238

205 实例:色彩聚类 239

206 自下而上的分层聚类 241

207 延伸学习 246

第 21章 自然语言处理 247

211 词云 247

212 n-gram 语言模型 249

213 语法 252

214 题外话:吉布斯采样 254

215 主题建模 255

216 词向量 260

217 递归神经网络 268

218 实例:使用字符级RNN 271

219 延伸学习 274

第 22章 网络分析 275

221 中介中心性 275

222 特征向量中心性 280

2221 矩阵乘法 280

2222 中心性 282

223 有向图与PageRank 283

224 延伸学习 286

第 23章 推荐系统 287

231 人工管理 288

232 推荐流行事务 288

233 基于用户的协同过滤 289

234 基于项目的协同过滤 292

235 矩阵分解 294

236 延伸学习 298

第 24章 数据库与SQL 299

241 CREATE TABLEINSERT 299

242 UPDATE 302

243 DELETE 303

244 SELECT 304

245 GROUP BY 306

246 ORDER BY 308

247 JOIN 309

248 子查询 311

249 索引 312

2410 查询优化 312

2411 NoSQL 313

2412 延伸学习 313

第 25章 MapReduce 314

251 实例:单词计数 315

252 为什么是MapReduce 316

253 更一般化的MapReduce 317

254 实例:状态分析更新 318

255 实例:矩阵乘法 320

256 题外话:组合器 321

257 延伸学习 322

第 26章 数据伦理 323

261 什么是数据伦理 323

262 讲真的,什么是数据伦理 324

263 是否应该关注数据伦理 324

264 建立不良数据产品 325

265 精确与公平之间的较量 325

266 合作 327

267 可解释性 327

268 推荐 327

269 异常数据 328

2610 数据保护 329

2611 小结 329

2612 延伸学习 329

第 27章 数据科学前瞻 330

271 IPython 330

272 数学 331

273 不从零开始 331

2731 NumPy 331

2732 pandas 331

2733 scikit-learn 331

2734 可视化 332

2735 R 332

2736 深度学习 332

274 寻找数据 333

275 从事数据科学工作 333

2751 Hacker News 333

2752 消防车 333

2753 T恤 334

2754 地球仪上的推文 334

2755 你的发现 335

关于作者 336

关于封面 336


最后,这里为大家准备了几百本的互联网电子书,有需要的过来取吧。点击获取

本页书籍均来自网络,如有侵权,请联系我立即删除。我的邮箱:yaojianguolq@163.com