涤生大数据

大数据架构专家

大数据架构专家，擅长大数据开发，组件调优，集群运维架构。当前管理1500节点大数据集群，100PB+数据，爱好python，爬虫。微信公众号：涤生手记大数据

赞

276

|

搜索文章

Spark系列：spark的前世今生

1.1. 2009 年由加州大学伯克利分校 AMPLab 开创 2010 年通过BSD许可协议开源发布 2013 年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop ...

3年前
555
2
评论

Spark系列：Spark入门编程与介绍

3. 3.1. 在初始阶段工作可以全部使用 Spark shell 完成, 它可以加快原型开发, 使得迭代更快, 很快就能看到想法的结果. 但是随着项目规模越来越大, 这种方式不利于代码维护, 所以可以编写独立应用. Table 3. 在 Node01 中创建文件 /export...

3年前
380
3
评论

Spark系列：spark底层运行原理，执行计划

1.在 Spark 部分的底层执行逻辑开始之前, 还是要先认识一下 Spark 的部署情况, 根据部署情况, 从而理解如何调度.Master Daemon 负责管理 Master 节点, 协调资源的获取, 以及连接 Worker 节点来运行 Executor, 是 Spark 集...

3年前
549
2
评论

Spark系列：RDD对不同数据类型的支持与演示

1.RDD 对键值对的额外支持是通过隐式支持来完成的, 一个 RDD[(K, V)], 可以被隐式转换为一个 PairRDDFunctions 对象, 从而调用其中的方法.val rdd = sc.println(rdd.2. // 1. val conf = new Spark...

3年前
665
2
评论

Spark系列：RDD,stage,job,shuffle物理执行过程

1. A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDD...

3年前
906
2
评论

Spark系列：闭包，累加器，广播变量

1. val factor = 3.val areaFunction = (r: Int) => math.上述例子中, `closure`方法返回的一个函数的引用, 其实就是一个闭包, 闭包本质上就是一个封闭的作用域, 要理解闭包, 是一定要和作用域联系起来的.val fact...

3年前
520
3
评论

Spark系列：sparksql入门与介绍使用

1. 1.1. 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算.sc.textFile("....flatMap(_....对于一些数据科学家, 要求他们为了做一个非常简单的查询, 写一大堆代码, ...

3年前
454
2
评论

Spark系列：catalyst使用介绍与演示

1.1. 1.2. score.id → id#1#L 为 score.id 生成 id 为 1, 类型是 Long score.math_score → math_score#2#L 为 score.math_score 生成 id 为 2, 类型为 Long people.i...

3年前
514
2
评论

Spark系列：spark集群的配置与使用

2. 2.1. Standalone 集群中, 分为两个角色: Master 和 Slave, 而 Slave 就是 Worker, 所以在 Standalone 集群中, 启动之初就会创建固定数量的 Worker Driver 的启动分为两种模式: Client 和 Clust...

3年前
437
2
评论

Hive问题记录：使用split等函数程序很慢的情况分析

一段很简单的代码，使用比如create table mobdi_test.aaa as select split(path,'\/') from mobdi_test.path_text_nocomp;程序进度季度慢，2.尝试了各种方法，参数优化，udf重构等。后来才找到了原因...

3年前
434
2
评论

个人成就

文章被点赞 1,565

文章被阅读 169,105

掘力值 4,868

加入于

2021-10-19