《Spark快速大数据分析》PDF

1,971 阅读7分钟

《Spark快速大数据分析》

链接: pan.baidu.com/s/1Vk0DSbD_… 提取码: i6av

《Spark快速大数据分析》由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。


目录

推荐序  xi

译者序  xiv

序  xvi

前言  xvii

第1章 Spark数据分析导论  1

11 Spark是什么  1

12 一个大一统的软件栈  2

121 Spark Core  2

122 Spark SQL  3

123 Spark Streaming  3

124 MLlib  3

125 GraphX  3

126 集群管理器  4

13 Spark的用户和用途  4

131 数据科学任务  4

132 数据处理应用  5

14 Spark简史  5

15 Spark的版本和发布  6

16 Spark的存储层次  62章 Spark下载与入门  7

21 下载Spark  7

22 Spark中Python和Scala的shell  9

23 Spark 核心概念简介  12

24 独立应用  14

241 初始化SparkContext  15

242 构建独立应用  16

25 总结  193章 RDD编程  21

31 RDD基础  21

32 创建RDD  23

33 RDD操作  24

331 转化操作  24

332 行动操作  26

333 惰性求值  27

34 向Spark传递函数  27

341 Python  27

342 Scala  28

343 Java  29

35 常见的转化操作和行动操作  30

351 基本RDD  30

352 在不同RDD类型间转换  37

36 持久化( 缓存)  39

37 总结  404章 键值对操作  41

41 动机  41

42 创建Pair RDD  42

43 Pair RDD的转化操作  42

431 聚合操作  45

432 数据分组  49

433 连接  50

434 数据排序  51

44 Pair RDD的行动操作  52

45 数据分区(进阶)  52

451 获取RDD的分区方式  55

452 从分区中获益的操作  56

453 影响分区方式的操作  57

454 示例:PageRank  57

455 自定义分区方式  59

46 总结  615章 数据读取与保存  63

51 动机  63

52 文件格式  64

521 文本文件  64

522 JSON  66

523 逗号分隔值与制表符分隔值  68

524 SequenceFile  71

525 对象文件  73

526 Hadoop输入输出格式  73

527 文件压缩  77

53 文件系统  78

531 本地/“常规”文件系统  78

532 Amazon S3  78

533 HDFS  79

54 Spark SQL中的结构化数据  79

541 Apache Hive  80

542 JSON  80

55 数据库  81

551 Java数据库连接  81

552 Cassandra  82

553 HBase  84

554 Elasticsearch  85

56 总结  866章 Spark编程进阶  87

61 简介  87

62 累加器  88

621 累加器与容错性  90

622 自定义累加器  91

63 广播变量  91

64 基于分区进行操作  94

65 与外部程序间的管道  96

66 数值RDD 的操作  99

67 总结  1007章 在集群上运行Spark  101

71 简介  101

72 Spark运行时架构  101

721 驱动器节点  102

722 执行器节点  103

723 集群管理器  103

724 启动一个程序  104

725 小结  104

73 使用spark-submit 部署应用  105

74 打包代码与依赖  107

741 使用Maven构建的用Java编写的Spark应用  108

742 使用sbt构建的用Scala编写的Spark应用  109

743 依赖冲突   111

75 Spark应用内与应用间调度  111

76 集群管理器  112

761 独立集群管理器  112

762 Hadoop YARN  115

763 Apache Mesos  116

764 Amazon EC2  117

77 选择合适的集群管理器  120

78 总结  1218章 Spark调优与调试  123

81 使用SparkConf配置Spark  123

82 Spark执行的组成部分:作业、任务和步骤  127

83 查找信息  131

831 Spark网页用户界面  131

832 驱动器进程和执行器进程的日志  134

84 关键性能考量  135

841 并行度  135

842 序列化格式  136

843 内存管理  137

844 硬件供给  138

85 总结  1399章 Spark SQL  141

91 连接Spark SQL  142

92 在应用中使用Spark SQL  144

921 初始化Spark SQL  144

922 基本查询示例  145

923 SchemaRDD  146

924 缓存  148

93 读取和存储数据  149

931 Apache Hive  149

932 Parquet  150

933 JSON  150

934 基于RDD  152

94 JDBC/ODBC服务器  153

941 使用Beeline  155

942 长生命周期的表与查询  156

95 用户自定义函数  156

951 Spark SQL UDF  156

952 Hive UDF  157

96 Spark SQL性能  158

97 总结  15910章 Spark Streaming  161

101 一个简单的例子  162

102 架构与抽象  164

103 转化操作  167

1031 无状态转化操作  167

1032 有状态转化操作  169

104 输出操作  173

105 输入源  175

1051 核心数据源  175

1052 附加数据源  176

1053 多数据源与集群规模  179

106 24/7不间断运行  180

1061 检查点机制  180

1062 驱动器程序容错  181

1063 工作节点容错  182

1064 接收器容错  182

1065 处理保证  183

107 Streaming用户界面  183

108 性能考量  184

1081 批次和窗口大小  184

1082 并行度  184

1083 垃圾回收和内存使用  185

109 总结  18511章 基于MLlib的机器学习  187

111 概述  187

112 系统要求  188

113 机器学习基础  189

114 数据类型  192

115 算法  194

1151 特征提取  194

1152 统计  196

1153 分类与回归  197

1154 聚类  202

1155 协同过滤与推荐  203

1156 降维  204

1157 模型评估  206

116 一些提示与性能考量  206

1161 准备特征  206

1162 配置算法  207

1163 缓存RDD以重复使用  207

1164 识别稀疏程度  207

1165 并行度  207

117 流水线API  208

118 总结  209

作者简介  210

封面介绍  210


最后,这里为大家准备了几百本的互联网电子书,有需要的过来取吧。点击获取

本页书籍均来自网络,如有侵权,请联系我立即删除。我的邮箱:yaojianguolq@163.com