Zouxxyy

学生

王者荣耀三级运动员

赞

0

|

搜索文章

建议掘金出个自己定义分类功能把，这不是博客最基本功能吗？？

希望创作者多改改把，不然只能用来当图床和记事本了。可是记事本没分类用起来很不爽。

6年前
421
点赞
1

spark-DataFrame和DataSet

类似传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。也就是普通RDD添加结构化信息得到。强类型的，存储的是对象。由DataFrame添加类属性得到。都是基于RDD的，所以都有RDD的特性，如懒加载，分布式，不可修改，分区等等。但执行sql性能比RD…

6年前
920
点赞
评论

spark-窄、宽依赖和任务划分

由于还没学shuffle，所以从宏观简单思考。学一个东西不能死记硬背，最好的理解就是：问问自己为啥要分窄依赖和宽依赖？例1：用map时，一个分区里的数据经过函数，形成新的数据，大家你搞你的我搞我的，互不干扰。例3：用groupbykey时，这下可不是互不干扰了，因为需要比较…

6年前
1.3k
点赞
1

spark-Yarn流程解析

主要流程和Yarn的流程一样，不同的就是紫色部分。这里采用的是spark的yarn-cluster模式，driver在APPMaster中。 ResourceManager管理资源调度，与NodeManager直接联系；Driver负责执行计算，与Executor也就是一个个T…

6年前
807
点赞
评论

hadoop-Yarn流程解析

Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。 Client向RM申请一个作业id。 RM给Client返回该job资源的提交路径(hdfs://.../.staging/)和作业application_id。 Clien…

6年前
1.9k
点赞
评论

hadoop-HDFS流程解析

客户端调用DS模块向NameNode请求上传文件。假设文件为200M，客户端请求上传第一个 Block ，希望得到DataNode服务器位置。 NameNode返回3个DataNode节点，分别为dn1、dn2、dn3，用它们存储数据。客户端通过FSDataOutputSt…

6年前
1.2k
2
评论

hadoop-MapReduce流程解析

1. 待处理文本这里假设是/user/input目录下的ss.txt 文件，大小为200M。 2. 客户端submit（） 3. 提交信息将刚刚获取的任务规划信息，提交到资源管理器上，我们这里用Yarn。 4. RM计算MapTask数量接着向Yarn的RM申请资源，RM…

6年前
1.6k
2
评论

hadoop-单节点伪分布式搭建

1. Java和Hadoop安装环境变量设置好，我是mac所以javahome是$(/usr/libexec/java_home);我是zsh所以修改.zshrc，修改完别忘了source。 2. 配置SSH 3. 伪分布式配置 dfs.replication HDFS文件存…

6年前
1.6k
5
评论

3种Linux命令后台执行方法：&、nohup、tmux

&用法：指令&说明：将指令放入后台执行，会将输出打印到前台，当执行该指令的终端gg时，它也gg终止方法：jobs查看它->fg%num取出它->Ctrl+c终止它直接退出终端nohup用法：nohup

6年前
4.6k
2
评论

用jupyter notebook打开服务器（告别黑框框）

可以远程用浏览器看服务器的文件目录，以及各种jupyter的好处：直接改代码，调试，它内嵌的读图也是特别舒服。我是给服务器装了anaconda，然后就自带了jupyter notebook。

6年前
1.3k
点赞
评论

个人成就

文章被点赞 12

文章被阅读 26,808

加入于

2019-03-13