不卷了

赞

680

|

搜索文章

赞了这篇文章

大数据架构专家

·

3年前

Spark系列：RDD的缓存和checkpoint机制

1.1. val conf = new SparkConf().setMaster("local[6]").val interimRDD = sc.textFile("da...

2

评论

赞了这篇文章

大数据架构专家

·

3年前

Spark系列：RDD介绍与使用

4. // 1. val conf = new SparkConf().// 2. val source: RDD[String] = sc.textFile("hdfs:...

2

评论

赞了这篇文章

大数据架构专家

·

3年前

安装mysql后登陆报错ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: NO)

1.在root用户下，查看MySQL是否安装 [root@10-90-49-139-jhdxyjd ~]# rpm -qa|grep -i mysql mysql-c...

3

评论

赞了这篇文章

大数据架构专家

·

3年前

Spark系列：深入了解RDD

1. 1.1. val config = new SparkConf().setAppName("ip_ana").val result = sc.textFile("da...

2

评论

赞了这篇文章

大数据架构专家

·

3年前

Hadoop：大数据架构师必备！Fair Scheduler和Capacity Scheduler调度器

1. 公司集群上千物理节点，存储容量100PB+,当前使用50PB左右，YARN的计算内存150Tb+,CPU 30000 Cores+。当前使用的CDH集群，...

3

评论

赞了这篇文章

大数据架构专家

·

3年前

Hadoop：集群出现块丢失，块找回，以及相关底层原理，fsck等

1. 集群报块丢失的原因很多，如物理磁盘损坏，节点不正常下线退役，集群高负载时如内存打满卡死，网络拥堵，系统本身问题等造成节点掉线，如cdh集群的agent和se...

2

评论

赞了这篇文章

大数据架构专家

·

3年前

上千生产节点的JournalNode下线，以及上线异常问题解决

背景：集群规模上千节点，5台JournalNode节点，现在因为需要维修，下线其中一台JournalNode进行维修。1. 在namenode的HA机制下，两个...

5

评论

赞了这篇文章

大数据架构专家

·

3年前

初级者与转行者，大数据如何学习最高效，简历该如何优化？

前面写了一篇大数据行业介绍，后台有很多小伙伴私信我大数据该如何学，简历该如何优化？尤其很多准备转行大数据的小伙伴，初级入门者，有较多困惑，简历写得天花乱坠...

5

评论

赞了这篇文章

大数据架构专家

·

3年前

写给大数据初级开发者或准备转行大数据的人

中国的IT行业因为有人口福利，所以但凡有个细分领域可以互联网+的，搞个应用服务，能有个日活10w+都可以活的很好了，当然像抖音那种现象级的APP日活过亿的，...

6

评论

赞了这篇文章

大数据架构专家

·

3年前

超详细版企业离线部署CDH6.10集群与配置使用

进入大数据行业数载，也从一个开发小白走到了今天，期间也历经过一摸番着石头过河的探索，到如今的胸有点墨；玩过demo,使用过负责过上千节点的大数据集群开发与...

4

评论

赞了这篇文章

大数据架构专家

·

3年前

HDFS：为啥集群小文件治理那么重要，你真的懂吗？

小文件是 Hadoop 集群运维中的常见挑战，尤其对于大规模运行的集群来说可谓至关重要。如果处理不好，可能会导致许多并发症。Hadoop集群本质是为了TB,...

3

评论

赞了这篇文章

大数据架构专家

·

3年前

HDFS：如何提高节点下线速度或避免因节点掉线产生网络风暴？

背景：老集群上千节点，存储60PB数据，因为历史原因，节点配置不一；为了节省成本最早一批节点挂载了32块盘，单节点磁盘空间250TB左右，负载在150TB左右，存储bloc...

5

评论

赞了这篇文章

大数据架构专家

·

3年前

Scala系列：模式匹配之简单匹配，匹配类型，守卫，匹配样例类，匹配集合等详解

0.1.1.1.2.2.2.3.4.4.5.5.5.5.6. 0.1.在Java中，有switch关键字，可以简化if条件判断语句。在scala中，可以使用match表达式...

3

评论

赞了这篇文章

大数据架构专家

·

3年前

Scala系列：Scala提取器的使用

0.我们之前已经使用过scala中非常强大的模式匹配功能了，通过模式匹配，我们可以快速匹配样例类中的成员变量。// 1. // 2. // 3. 使用match...不可以...

2

评论

赞了这篇文章

大数据架构专家

·

3年前

Scala系列：Option类型，隐函数以及正则表达式的使用详解

0. 0.1.1.2.2.2.2.0. 使用Option类型，可以用来有效避免空引用(null)异常。也就是说，将来我们返回某些数据时，可以返回一个Option类型来替代。...

2

评论

赞了这篇文章

大数据架构专家

·

3年前

Scala系列：Actor创建，Actor发送，接受消息等详解与案例演示

0.scala的Actor并发编程模型可以用来开发比Java线程效率更高的并发程序。我们学习scala Actor的目的主要是为后续学习Akka做准备。0.在Java并发编...

2

评论

赞了这篇文章

大数据架构专家

·

3年前

Spark系列：sparksql操作hive表的使用

1.Step 1: 修改 hive-site.<name>hive.metastore.warehouse.<name>javax.jdo.option.<name>ja...

3

评论

赞了这篇文章

大数据架构专家

·

3年前

Spark系列：DataSet和DataFrame使用详解

1.val spark: SparkSession = new sql.SparkSession....import spark.implicits.val dataset...

3

评论

赞了这篇文章

大数据架构专家

·

3年前

Spark系列： DataFrameReader读取json/parquet等格式文件详解

1.import org.apache.spark.sql.import org.apache.spark.sql.val spark: SparkSession = .....

2

评论

赞了这篇文章

大数据架构专家

·

3年前

Spark系列：RDD之间的依赖关系，窄依赖和宽依赖

1.2. 假如 rddB = rddA.val sc = ...val rddA = sc.val rddB = sc.rddA.cartesian(rddB).colle...

2

评论

加入于

2021-10-22