大数据学习 - Zouxxyy的收藏集 - 掘金

大数据学习

更多收藏集

7篇文章 · 0订阅

hadoop-单节点伪分布式搭建

1. Java和Hadoop安装环境变量设置好，我是mac所以javahome是$(/usr/libexec/java_home);我是zsh所以修改.zshrc，修改完别忘了source。 2. 配置SSH 3. 伪分布式配置 dfs.replication HDFS文件存…

Zouxxyy
6年前
1.7k
5
评论

hadoop-MapReduce流程解析

1. 待处理文本这里假设是/user/input目录下的ss.txt 文件，大小为200M。 2. 客户端submit（） 3. 提交信息将刚刚获取的任务规划信息，提交到资源管理器上，我们这里用Yarn。 4. RM计算MapTask数量接着向Yarn的RM申请资源，RM…

Zouxxyy
6年前
1.7k
2
评论

hadoop-HDFS流程解析

客户端调用DS模块向NameNode请求上传文件。假设文件为200M，客户端请求上传第一个 Block ，希望得到DataNode服务器位置。 NameNode返回3个DataNode节点，分别为dn1、dn2、dn3，用它们存储数据。客户端通过FSDataOutputSt…

Zouxxyy
6年前
1.2k
2
评论

hadoop-Yarn流程解析

Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。 Client向RM申请一个作业id。 RM给Client返回该job资源的提交路径(hdfs://.../.staging/)和作业application_id。 Clien…

Zouxxyy
6年前
1.9k
点赞
评论

spark-Yarn流程解析

主要流程和Yarn的流程一样，不同的就是紫色部分。这里采用的是spark的yarn-cluster模式，driver在APPMaster中。 ResourceManager管理资源调度，与NodeManager直接联系；Driver负责执行计算，与Executor也就是一个个T…

Zouxxyy
6年前
868
点赞
评论

spark-DataFrame和DataSet

类似传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。也就是普通RDD添加结构化信息得到。强类型的，存储的是对象。由DataFrame添加类属性得到。都是基于RDD的，所以都有RDD的特性，如懒加载，分布式，不可修改，分区等等。但执行sql性能比RD…

Zouxxyy
6年前
951
点赞
评论

spark-窄、宽依赖和任务划分

由于还没学shuffle，所以从宏观简单思考。学一个东西不能死记硬背，最好的理解就是：问问自己为啥要分窄依赖和宽依赖？例1：用map时，一个分区里的数据经过函数，形成新的数据，大家你搞你的我搞我的，互不干扰。例3：用groupbykey时，这下可不是互不干扰了，因为需要比较…

Zouxxyy
6年前
1.3k
点赞
1