Spark

Spark

Spark

Spark

等 3 人订阅共15篇文章创建于2022-05-07

Spark系列：深入了解RDD

1. 1.1. val config = new SparkConf().setAppName("ip_ana").val result = sc.textFile("dataset/access_log_sample..map(item => (item..filter(ite...

3年前
418
2
评论

Spark系列：RDD的缓存和checkpoint机制

1.1. val conf = new SparkConf().setMaster("local[6]").val interimRDD = sc.textFile("dataset/access_log_sample..map(item => (item..filter(ite...

3年前
520
2
评论

Spark系列：RDD介绍与使用

4. // 1. val conf = new SparkConf().// 2. val source: RDD[String] = sc.textFile("hdfs://node01:8020/dataset/wordcount.val words: RDD[String]...

3年前
267
2
评论

Spark系列：RDD的分区和Shuffle使用介绍

1.1.1. scala> sc.parallelize(1 to 100).之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 spark-shell --master local[8], 这样会生成 1 个 Executors, 这个 Executors 有 8...

3年前
1.3k
5
评论

Spark系列：spark的前世今生

1.1. 2009 年由加州大学伯克利分校 AMPLab 开创 2010 年通过BSD许可协议开源发布 2013 年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop ...

3年前
495
2
评论

Spark系列：Spark入门编程与介绍

3. 3.1. 在初始阶段工作可以全部使用 Spark shell 完成, 它可以加快原型开发, 使得迭代更快, 很快就能看到想法的结果. 但是随着项目规模越来越大, 这种方式不利于代码维护, 所以可以编写独立应用. Table 3. 在 Node01 中创建文件 /export...

3年前
333
3
评论

Spark系列：spark底层运行原理，执行计划

1.在 Spark 部分的底层执行逻辑开始之前, 还是要先认识一下 Spark 的部署情况, 根据部署情况, 从而理解如何调度.Master Daemon 负责管理 Master 节点, 协调资源的获取, 以及连接 Worker 节点来运行 Executor, 是 Spark 集...

3年前
501
2
评论

Spark系列：RDD对不同数据类型的支持与演示

1.RDD 对键值对的额外支持是通过隐式支持来完成的, 一个 RDD[(K, V)], 可以被隐式转换为一个 PairRDDFunctions 对象, 从而调用其中的方法.val rdd = sc.println(rdd.2. // 1. val conf = new Spark...

3年前
621
2
评论

Spark系列：RDD,stage,job,shuffle物理执行过程

1. A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDD...

3年前
855
2
评论

Spark系列：闭包，累加器，广播变量

1. val factor = 3.val areaFunction = (r: Int) => math.上述例子中, `closure`方法返回的一个函数的引用, 其实就是一个闭包, 闭包本质上就是一个封闭的作用域, 要理解闭包, 是一定要和作用域联系起来的.val fact...

3年前
487
3
评论

Spark系列：spark集群的配置与使用

2. 2.1. Standalone 集群中, 分为两个角色: Master 和 Slave, 而 Slave 就是 Worker, 所以在 Standalone 集群中, 启动之初就会创建固定数量的 Worker Driver 的启动分为两种模式: Client 和 Clust...

3年前
390
2
评论

Spark系列：RDD之间的依赖关系，窄依赖和宽依赖

1.2. 假如 rddB = rddA.val sc = ...val rddA = sc.val rddB = sc.rddA.cartesian(rddB).collect().Represents a dependency on the output of a shuffl...

3年前
563
2
评论

Spark系列：DataSet和DataFrame使用详解

1.val spark: SparkSession = new sql.SparkSession....import spark.implicits.val dataset: Dataset[People] = spark.dataset.filter(item => item....

3年前
443
3
评论

Spark系列： DataFrameReader读取json/parquet等格式文件详解

1.import org.apache.spark.sql.import org.apache.spark.sql.val spark: SparkSession = ...val reader: DataFrameReader = spark.import org.apache...

3年前
972
2
评论

Spark系列：sparksql操作hive表的使用

1.Step 1: 修改 hive-site.<name>hive.metastore.warehouse.<name>javax.jdo.option.<name>javax.jdo.option.<value>com.mysql.jdbc.<name>javax.jdo.o...

3年前
934
3
评论