首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Zouxxyy
掘友等级
学生
王者荣耀三级运动员
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
建议掘金出个自己定义分类功能把,这不是博客最基本功能吗??
希望创作者多改改把,不然只能用来当图床和记事本了。可是记事本没分类用起来很不爽。
spark-DataFrame和DataSet
类似传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema。也就是普通RDD添加结构化信息得到。 强类型的,存储的是对象。由DataFrame添加类属性得到。 都是基于RDD的,所以都有RDD的特性,如懒加载,分布式,不可修改,分区等等。但执行sql性能比RD…
spark-窄、宽依赖和任务划分
由于还没学shuffle,所以从宏观简单思考。学一个东西不能死记硬背,最好的理解就是:问问自己为啥要分窄依赖和宽依赖? 例1:用map时,一个分区里的数据经过函数,形成新的数据,大家你搞你的我搞我的,互不干扰。 例3:用groupbykey时,这下可不是互不干扰了,因为需要比较…
spark-Yarn流程解析
主要流程和Yarn的流程一样,不同的就是紫色部分。这里采用的是spark的yarn-cluster模式,driver在APPMaster中。 ResourceManager管理资源调度,与NodeManager直接联系;Driver负责执行计算,与Executor也就是一个个T…
hadoop-Yarn流程解析
Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 Client向RM申请一个作业id。 RM给Client返回该job资源的提交路径(hdfs://.../.staging/)和作业application_id。 Clien…
hadoop-HDFS流程解析
客户端调用DS模块向NameNode请求上传文件。 假设文件为200M,客户端请求上传第一个 Block ,希望得到DataNode服务器位置。 NameNode返回3个DataNode节点,分别为dn1、dn2、dn3,用它们存储数据。 客户端通过FSDataOutputSt…
hadoop-MapReduce流程解析
1. 待处理文本 这里假设是/user/input目录下的ss.txt 文件,大小为200M。 2. 客户端submit() 3. 提交信息 将刚刚获取的任务规划信息,提交到资源管理器上,我们这里用Yarn。 4. RM计算MapTask数量 接着向Yarn的RM申请资源,RM…
hadoop-单节点伪分布式搭建
1. Java和Hadoop安装 环境变量设置好,我是mac所以javahome是$(/usr/libexec/java_home);我是zsh所以修改.zshrc,修改完别忘了source。 2. 配置SSH 3. 伪分布式配置 dfs.replication HDFS文件存…
3种Linux命令后台执行方法:&、nohup、tmux
&用法:指令&说明:将指令放入后台执行,会将输出打印到前台,当执行该指令的终端gg时,它也gg终止方法:jobs查看它->fg%num取出它->Ctrl+c终止它直接退出终端nohup用法:nohup
用jupyter notebook打开服务器(告别黑框框)
可以远程用浏览器看服务器的文件目录,以及各种jupyter的好处:直接改代码,调试,它内嵌的读图也是特别舒服。 我是给服务器装了anaconda,然后就自带了jupyter notebook。
下一页
个人成就
文章被点赞
12
文章被阅读
26,808
掘力值
555
关注了
0
关注者
3
收藏集
4
关注标签
2
加入于
2019-03-13