首页
首页
沸点
课程
直播
资讯
活动
开放社区
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
掘金会员预售 5.16-6.16
登录
举报沸点
请选择举报理由
和话题不符
恶意攻击谩骂
广告营销
涤生大数据
大数据架构专家
大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500节点大数据集群,100PB+数据,爱好python,爬虫。微信公众号:涤生手记大数据
7
关注
36
关注者
2,025
掘力值
关注
关注
获得徽章 0
动态
文章
专栏
沸点
收藏集
1
关注
赞
239
文章 239
沸点 0
资讯 0
赞
239
关注
返回
|
搜索文章
涤生大数据
大数据架构专家
·
1天前
关注
安装mysql后登陆报错ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: NO)
1.在root用户下,查看MySQL是否安装 [root@10-90-49-139-jhdxyjd ~]# rpm -qa|grep -i mysql mysql-c...
2
评论
分享
涤生大数据
大数据架构专家
·
2天前
关注
Spark系列:深入了解RDD
1. 1.1. val config = new SparkConf().setAppName("ip_ana").val result = sc.textFile("da...
1
评论
分享
涤生大数据
大数据架构专家
·
3天前
关注
Spark系列:RDD的缓存和checkpoint机制
1.1. val conf = new SparkConf().setMaster("local[6]").val interimRDD = sc.textFile("da...
1
评论
分享
涤生大数据
大数据架构专家
·
4天前
关注
Spark系列:RDD介绍与使用
4. // 1. val conf = new SparkConf().// 2. val source: RDD[String] = sc.textFile("hdfs:...
1
评论
分享
涤生大数据
大数据架构专家
·
5天前
关注
Spark系列:RDD的分区和Shuffle使用介绍
1.1.1. scala> sc.parallelize(1 to 100).之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 spark-shell --...
3
评论
分享
涤生大数据
大数据架构专家
·
6天前
关注
Spark系列:spark的前世今生
1.1. 2009 年由加州大学伯克利分校 AMPLab 开创 2010 年通过BSD许可协议开源发布 2013 年捐赠给Apache软件基金会并切换开源协议到切换许可协议...
2
评论
分享
涤生大数据
大数据架构专家
·
7天前
关注
Spark系列:Spark入门编程与介绍
3. 3.1. 在初始阶段工作可以全部使用 Spark shell 完成, 它可以加快原型开发, 使得迭代更快, 很快就能看到想法的结果. 但是随着项目规模越来越大, 这种...
2
评论
分享
涤生大数据
大数据架构专家
·
8天前
关注
Spark系列:spark底层运行原理,执行计划
1.在 Spark 部分的底层执行逻辑开始之前, 还是要先认识一下 Spark 的部署情况, 根据部署情况, 从而理解如何调度.Master Daemon 负责管理 Mas...
2
评论
分享
涤生大数据
大数据架构专家
·
9天前
关注
Spark系列:RDD对不同数据类型的支持与演示
1.RDD 对键值对的额外支持是通过隐式支持来完成的, 一个 RDD[(K, V)], 可以被隐式转换为一个 PairRDDFunctions 对象, 从而调用其中的方法....
2
评论
分享
涤生大数据
大数据架构专家
·
10天前
关注
Spark系列:RDD,stage,job,shuffle物理执行过程
1. A list of partitions A function for computing each split A list of dependencies on ...
2
评论
分享
涤生大数据
大数据架构专家
·
11天前
关注
Spark系列:闭包,累加器,广播变量
1. val factor = 3.val areaFunction = (r: Int) => math.上述例子中, `closure`方法返回的一个函数的引用, 其实...
3
评论
分享
涤生大数据
大数据架构专家
·
13天前
关注
Spark系列:sparksql入门与介绍使用
1. 1.1. 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算.sc.textFile("...
2
评论
分享
涤生大数据
大数据架构专家
·
14天前
关注
Spark系列:catalyst使用介绍与演示
1.1. 1.2. score.id → id#1#L 为 score.id 生成 id 为 1, 类型是 Long score.math_score → math_sco...
2
评论
分享
涤生大数据
大数据架构专家
·
15天前
关注
Spark系列:spark集群的配置与使用
2. 2.1. Standalone 集群中, 分为两个角色: Master 和 Slave, 而 Slave 就是 Worker, 所以在 Standalone 集群中,...
2
评论
分享
涤生大数据
大数据架构专家
·
16天前
关注
Hive问题记录:使用split等函数程序很慢的情况分析
一段很简单的代码,使用比如create table mobdi_test.aaa as select split(path,'\/') from mobdi_test.p...
2
评论
分享
涤生大数据
大数据架构专家
·
16天前
关注
Spark系列:RDD之间的依赖关系,窄依赖和宽依赖
1.2. 假如 rddB = rddA.val sc = ...val rddA = sc.val rddB = sc.rddA.cartesian(rddB).colle...
2
评论
分享
涤生大数据
大数据架构专家
·
17天前
关注
Spark系列:DataSet和DataFrame使用详解
1.val spark: SparkSession = new sql.SparkSession....import spark.implicits.val dataset...
2
评论
分享
涤生大数据
大数据架构专家
·
19天前
关注
Spark系列: DataFrameReader读取json/parquet等格式文件详解
1.import org.apache.spark.sql.import org.apache.spark.sql.val spark: SparkSession = .....
2
评论
分享
下一页
个人成就
文章被点赞
1,487
文章被阅读
53,719
掘力值
2,025
关注了
7
关注者
36
收藏集
1
关注标签
6
加入于
2021-10-19