首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Spark
涤生大数据
创建于2022-05-07
订阅专栏
Spark
等 3 人订阅
共15篇文章
创建于2022-05-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Spark系列:深入了解RDD
1. 1.1. val config = new SparkConf().setAppName("ip_ana").val result = sc.textFile("dataset/access_log_sample..map(item => (item..filter(ite...
Spark系列:RDD的缓存和checkpoint机制
1.1. val conf = new SparkConf().setMaster("local[6]").val interimRDD = sc.textFile("dataset/access_log_sample..map(item => (item..filter(ite...
Spark系列:RDD介绍与使用
4. // 1. val conf = new SparkConf().// 2. val source: RDD[String] = sc.textFile("hdfs://node01:8020/dataset/wordcount.val words: RDD[String]...
Spark系列:RDD的分区和Shuffle使用介绍
1.1.1. scala> sc.parallelize(1 to 100).之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 spark-shell --master local[8], 这样会生成 1 个 Executors, 这个 Executors 有 8...
Spark系列:spark的前世今生
1.1. 2009 年由加州大学伯克利分校 AMPLab 开创 2010 年通过BSD许可协议开源发布 2013 年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop ...
Spark系列:Spark入门编程与介绍
3. 3.1. 在初始阶段工作可以全部使用 Spark shell 完成, 它可以加快原型开发, 使得迭代更快, 很快就能看到想法的结果. 但是随着项目规模越来越大, 这种方式不利于代码维护, 所以可以编写独立应用. Table 3. 在 Node01 中创建文件 /export...
Spark系列:spark底层运行原理,执行计划
1.在 Spark 部分的底层执行逻辑开始之前, 还是要先认识一下 Spark 的部署情况, 根据部署情况, 从而理解如何调度.Master Daemon 负责管理 Master 节点, 协调资源的获取, 以及连接 Worker 节点来运行 Executor, 是 Spark 集...
Spark系列:RDD对不同数据类型的支持与演示
1.RDD 对键值对的额外支持是通过隐式支持来完成的, 一个 RDD[(K, V)], 可以被隐式转换为一个 PairRDDFunctions 对象, 从而调用其中的方法.val rdd = sc.println(rdd.2. // 1. val conf = new Spark...
Spark系列:RDD,stage,job,shuffle物理执行过程
1. A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDD...
Spark系列:闭包,累加器,广播变量
1. val factor = 3.val areaFunction = (r: Int) => math.上述例子中, `closure`方法返回的一个函数的引用, 其实就是一个闭包, 闭包本质上就是一个封闭的作用域, 要理解闭包, 是一定要和作用域联系起来的.val fact...
Spark系列:spark集群的配置与使用
2. 2.1. Standalone 集群中, 分为两个角色: Master 和 Slave, 而 Slave 就是 Worker, 所以在 Standalone 集群中, 启动之初就会创建固定数量的 Worker Driver 的启动分为两种模式: Client 和 Clust...
Spark系列:RDD之间的依赖关系,窄依赖和宽依赖
1.2. 假如 rddB = rddA.val sc = ...val rddA = sc.val rddB = sc.rddA.cartesian(rddB).collect().Represents a dependency on the output of a shuffl...
Spark系列:DataSet和DataFrame使用详解
1.val spark: SparkSession = new sql.SparkSession....import spark.implicits.val dataset: Dataset[People] = spark.dataset.filter(item => item....
Spark系列: DataFrameReader读取json/parquet等格式文件详解
1.import org.apache.spark.sql.import org.apache.spark.sql.val spark: SparkSession = ...val reader: DataFrameReader = spark.import org.apache...
Spark系列:sparksql操作hive表的使用
1.Step 1: 修改 hive-site.<name>hive.metastore.warehouse.<name>javax.jdo.option.<name>javax.jdo.option.<value>com.mysql.jdbc.<name>javax.jdo.o...