首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
stonezhu
掘友等级
👨💻
我的博客:http://zhuleiblog.com
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
4
文章 4
沸点 0
赞
4
返回
|
搜索文章
最新
热门
Spark 源码分析(二): Driver 注册及启动
上一篇文章已经已经执行到 Client 向 masterEndpoint 发送了 RequestSubmitDriver 信息,下面就看看 master 怎么注册 driver 信息,并且怎么让 worker 去启动 driver 的。 这个 Master 就是前面 Clien…
Spark 源码分析(一):Spark Submit 任务提交
研究 Spark 内部是怎么运行的,怎么将 Spark 的任务从开始运行到结束的,先从 spark-submit 这个 shell 脚本提交用户程序开始。下面的分析都是基于 spark 2.1.1 版本。 脚本最后调用 exec 执行 "${SPARK_HOME}"/bin/s…
Spark 中的 RPC
Spark 是一个 通用的分布式计算系统,既然是分布式的,必然存在很多节点之间的通信,那么 Spark 不同组件之间就会通过 RPC(Remote Procedure Call)进行点对点通信。 Spark 早期版本中使用 Netty 通信框架做大块数据的传输,使用 Akka …
Spark 共享变量
翻译 Spark 共享变量部分的官方文档(Spark 2.4.3)。 通常,当传递给 Spark 操作 (如 map 或 reduce ) 的函数在远程集群节点上执行时,在函数中使用的所有外部变量都是单独拷贝的变量副本。这些变量被复制到每台机器上,对远程机器上的变量更新不会传播…
Intellij IDEA 清除无用 import 快捷键以及自动清除设置
如果要设置自动清除这些无用导入,Windows 系统在:File -> Settings -> Editer -> General -> Auto Import 设置,Mac OS 在:Intellij IDEA -> preferences -> Editer -> Gene…
Spark 的 cogroup 和 join 算子
cogroup 这个算子使用的频率很低,join 算子使用频率较高,两者都是根据两个 RDD 的 key 进行关联。具体看下面的代码,先看下面的 2 个 RDD: 上面的 RDD 中,words1RDD 和 words2RDD 中的 key 都有重复的。然后看看看两者分别用 c…
Spark SQL 中 UDF 和 UDAF 的使用
SparkSQL支持Hive的UDF(Userdefinedfunctions)和UDAF(Userdefinedaggregationfunctions)UDF传入参数只能是表中的1行数据(可以是多
Mac 上启动开启 sshd 服务
用 ssh 远程连接 Mac 电脑时候出现 ssh: connect to host localhost port 22: Connection refused 拒绝连接的错误。 sshd: no hostkeys available -- exiting. 点开 系统偏好设置…
ssh 远程连接的两种验证方式
SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。其目的是实现安全远程登录以及其它安全网络服务。 从客户端来看,SSH提供两种级别的安全验证。一种是基于口令的安全验…
failure: ``union'' expected but `(' found
这个报错在位置在开窗函数执行语句处。 从 Spark 2.0 开始,Spark SQL 才本地实现了开窗函数(SPARK-8641),在 Spark 2.0 之前要使用开窗函数,必须使用 HiveContext 去操作。 同时,开窗函数是从 Spark 1.4 引进的,所以当 …
下一页
个人成就
文章被点赞
203
文章被阅读
117,163
掘力值
2,290
关注了
28
关注者
385
收藏集
0
关注标签
8
加入于
2018-06-16