首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
霍云
掘友等级
数据开发
|
字节跳动
无他,唯手熟尔
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 23
沸点 2
赞
25
返回
|
搜索文章
霍云
数据开发 @字节跳动
·
4年前
关注
Spark Shuffle Reader
MR的编程模型,在Mapper中定义了每条数据的处理逻辑。MapTask把数据写到磁盘,然后reduceTask进行拉取,在Reducer中定义了每组数据的处理逻辑,很容易...
1
评论
分享
霍云
关注了标签
Spark
数据开发 @字节跳动
霍云
数据开发 @字节跳动
·
4年前
关注
Spark ShuffleWriter
Spark的shuffle系统很复杂,同时我认为这也是比MR快的最重要原因。MR是早期产物,Spark必然取其精华,弃其糟粕 源码中说这种方式是序列化的形式,非常高效。看看...
赞
评论
分享
霍云
赞了这篇文章
说出你的愿望吧
Developer @🍨Vzan
·
4年前
关注
平凡中创造不凡 | 从畏畏缩缩到初见成效的8个月心路历程 | 掘金年度征文
到现在的12月,我们一起成长,都希望每一次,可以做得比之前那个不成熟的自己更好。 现在是凌晨1点,能在后端这个页面最后看到自己,我很开心。 我深知我并不是与众不同的那一个,...
141
43
分享
霍云
关注了
说出你的愿望吧
数据开发 @字节跳动
霍云
数据开发 @字节跳动
·
4年前
关注
Spark Shuffle
shuffle不是spark的专属产物,MR里也有。这是大数据分布式计算的逻辑,分布式计算就得这么搞。只不过spark在源码里做了很多能让分布式计算变快的操作! 这是我们作...
1
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
Spark切分stage
Spark里有很多RDD,且RDD之间有依赖关系。就像是一个单链表。 DAGScheduler这个类的源码注释非常值得一看。 我理解的计算分为不相关计算(filter,ma...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
操作数栈和局部变量表
考察的是i++ ++i到底理不理解。我来从字节码进行分析...
赞
评论
分享
霍云
关注了
字节跳动技术团队
数据开发 @字节跳动
霍云
数据开发 @字节跳动
·
4年前
关注
spark自省
理解MR过程中的排序。理解其设计目的。 Map端join,cache的设置。 编程题:找共同好友问题。 spark迭代器pipeline思想(嵌套迭代器,在MR中也有体现)...
1
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
MapReduce-分组取TopN
MR是大数据技术中的基本功。MR源码分析的目的是清楚一个MR Job其中有哪些细节。通过一个分组取TopN的例子来串一遍所有细节,并且培养大数据计算编程手感 如下数据,求出...
1
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
Java+tcpdump分析四次挥手
如上代码,我起了一个java-server,在执行new ServerSocket(8899)之后,就开始睡眠了。不过在这时操作系统已经产生了一个listen socket...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
NIO-Buffer
众所周知nio中buffer是核心的部分。看过视频也看过一些博客,我记录一下我的理解。 buffer是一块内存,可以是onheap也可以是堆外。里面有三个核心的概念 buf...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
logstash使用经验
官方文档中有原理讲解,以及重要配置。最重要的三个章节为input、filter、output。很多时候都需要从这三个章节中学习。 目前每个logstash数据流都是一个单独...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
防止老年痴呆
如何判断链表是否有环?...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
JavaWeb-Session-Cookie
cookie会保存在客户端浏览器上。 在学习Servlet相关的源码的时候,看到Cookie这个类的源码时,其中的注释说的很明白什么时cookie了。同时源码中也说了如何使...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
jdk集合相关的位移操作
第一眼看起来这代码在这突突啥,在纸上画一画这些操作。...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
logstash工作中相关笔记
其实这个问题是最难受的,记得刚开始研究elk的时候,就发现时间在logstash里比北京时间慢8小时,写入es后,es里的时间也同样是比北京时间慢8小时。 我们也用了kib...
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
CAS
赞
评论
分享
霍云
数据开发 @字节跳动
·
4年前
关注
线程的join
之前只是知道在一个线程中调用了其他线程的join方法会让那个线程执行,自己进行休眠。 join是一个实例方法,而且是synchroinzed的。说明进到这个方法拿到了该对象...
赞
评论
分享
下一页
个人成就
文章被点赞
16
文章被阅读
37,491
掘力值
1,236
关注了
21
关注者
10
收藏集
0
关注标签
9
加入于
2019-02-14