首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
涤生大数据
掘友等级
大数据架构专家
大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500节点大数据集群,100PB+数据,爱好python,爬虫。微信公众号:涤生手记大数据
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
276
文章 276
沸点 0
赞
276
返回
|
搜索文章
最新
热门
Spark系列:spark的前世今生
1.1. 2009 年由加州大学伯克利分校 AMPLab 开创 2010 年通过BSD许可协议开源发布 2013 年捐赠给Apache软件基金会并切换开源协议到切换许可协议至 Apache2.Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop ...
Spark系列:Spark入门编程与介绍
3. 3.1. 在初始阶段工作可以全部使用 Spark shell 完成, 它可以加快原型开发, 使得迭代更快, 很快就能看到想法的结果. 但是随着项目规模越来越大, 这种方式不利于代码维护, 所以可以编写独立应用. Table 3. 在 Node01 中创建文件 /export...
Spark系列:spark底层运行原理,执行计划
1.在 Spark 部分的底层执行逻辑开始之前, 还是要先认识一下 Spark 的部署情况, 根据部署情况, 从而理解如何调度.Master Daemon 负责管理 Master 节点, 协调资源的获取, 以及连接 Worker 节点来运行 Executor, 是 Spark 集...
Spark系列:RDD对不同数据类型的支持与演示
1.RDD 对键值对的额外支持是通过隐式支持来完成的, 一个 RDD[(K, V)], 可以被隐式转换为一个 PairRDDFunctions 对象, 从而调用其中的方法.val rdd = sc.println(rdd.2. // 1. val conf = new Spark...
Spark系列:RDD,stage,job,shuffle物理执行过程
1. A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDD...
Spark系列:闭包,累加器,广播变量
1. val factor = 3.val areaFunction = (r: Int) => math.上述例子中, `closure`方法返回的一个函数的引用, 其实就是一个闭包, 闭包本质上就是一个封闭的作用域, 要理解闭包, 是一定要和作用域联系起来的.val fact...
Spark系列:sparksql入门与介绍使用
1. 1.1. 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算.sc.textFile("....flatMap(_....对于一些数据科学家, 要求他们为了做一个非常简单的查询, 写一大堆代码, ...
Spark系列:catalyst使用介绍与演示
1.1. 1.2. score.id → id#1#L 为 score.id 生成 id 为 1, 类型是 Long score.math_score → math_score#2#L 为 score.math_score 生成 id 为 2, 类型为 Long people.i...
Spark系列:spark集群的配置与使用
2. 2.1. Standalone 集群中, 分为两个角色: Master 和 Slave, 而 Slave 就是 Worker, 所以在 Standalone 集群中, 启动之初就会创建固定数量的 Worker Driver 的启动分为两种模式: Client 和 Clust...
Hive问题记录:使用split等函数程序很慢的情况分析
一段很简单的代码,使用比如create table mobdi_test.aaa as select split(path,'\/') from mobdi_test.path_text_nocomp;程序进度季度慢,2.尝试了各种方法,参数优化,udf重构等。后来才找到了原因...
下一页
个人成就
文章被点赞
1,561
文章被阅读
151,118
掘力值
4,819
关注了
9
关注者
84
收藏集
1
关注标签
6
加入于
2021-10-19