首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据学习
订阅
Zouxxyy
更多收藏集
微信扫码分享
微信
新浪微博
QQ
7篇文章 · 0订阅
hadoop-单节点伪分布式搭建
1. Java和Hadoop安装 环境变量设置好,我是mac所以javahome是$(/usr/libexec/java_home);我是zsh所以修改.zshrc,修改完别忘了source。 2. 配置SSH 3. 伪分布式配置 dfs.replication HDFS文件存…
hadoop-MapReduce流程解析
1. 待处理文本 这里假设是/user/input目录下的ss.txt 文件,大小为200M。 2. 客户端submit() 3. 提交信息 将刚刚获取的任务规划信息,提交到资源管理器上,我们这里用Yarn。 4. RM计算MapTask数量 接着向Yarn的RM申请资源,RM…
hadoop-HDFS流程解析
客户端调用DS模块向NameNode请求上传文件。 假设文件为200M,客户端请求上传第一个 Block ,希望得到DataNode服务器位置。 NameNode返回3个DataNode节点,分别为dn1、dn2、dn3,用它们存储数据。 客户端通过FSDataOutputSt…
hadoop-Yarn流程解析
Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 Client向RM申请一个作业id。 RM给Client返回该job资源的提交路径(hdfs://.../.staging/)和作业application_id。 Clien…
spark-Yarn流程解析
主要流程和Yarn的流程一样,不同的就是紫色部分。这里采用的是spark的yarn-cluster模式,driver在APPMaster中。 ResourceManager管理资源调度,与NodeManager直接联系;Driver负责执行计算,与Executor也就是一个个T…
spark-DataFrame和DataSet
类似传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。也就是普通RDD添加结构化信息得到。 强类型的,存储的是对象。由DataFrame添加类属性得到。 都是基于RDD的,所以都有RDD的特性,如懒加载,分布式,不可修改,分区等等。但执行sql性能比RD…
spark-窄、宽依赖和任务划分
由于还没学shuffle,所以从宏观简单思考。学一个东西不能死记硬背,最好的理解就是:问问自己为啥要分窄依赖和宽依赖? 例1:用map时,一个分区里的数据经过函数,形成新的数据,大家你搞你的我搞我的,互不干扰。 例3:用groupbykey时,这下可不是互不干扰了,因为需要比较…