大数据开发

大数据开发

大数据开发

大白话阐述大数据的相关知识

等 10 人订阅共3篇文章创建于2021-05-27

小白也能看懂的 Hive 调优

Hive 一个常用的大数据组件，影响它的性能的从来都不是因为数据量过大的问题，而是数据倾斜，冗余，Job 和 IO 过多，MapReduce 分配不合理···等

4年前
4.2k
58
8

重新说明：Namenode的双缓冲机制和分段加锁原理

双缓冲机制和分段加锁。会有3个标志 isAutoSyncScheduled：判断是否在进行缓存交换 synctxid：这是线程进行磁盘刷写的事务id isSyncRunning：是否在进行写磁盘

4年前
1.7k
21
3

从零开始 MapReduce

你将 get 到分布式计算引擎的核心思路，MapReduce 并行度解析，碍于篇幅不宜太长所以先这么多，之后会继续更新相关内容。

4年前
1.9k
33
评论