hadoop

hadoop

hadoop

hadoop

等 1 人订阅共8篇文章创建于2021-06-21

Map 端 Shuffle：Map Output 生成 1. 环形缓冲区（Memory Buffer） Map 的输出（key-value）先写入一个内存缓冲区（默认 100MB）。缓冲区满（或

10月前
101
点赞
评论

namenode && datanode

NameNode和datanode工作原理的解析；以及NameNode和SecondaryNameNode的关系

3年前
147
点赞
评论

基础知识 1. HDFS读流程客户端通过 DistributedFileSystem 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DataNode 地址。

4年前
861
点赞
评论

mapreduce && yarn 常见调优参数

1. mapreduce调优 map调优自定义分区，减少数据倾斜自定义类，继承Partitioner接口，重写getPartition方法；减少溢写次数 mapreduce.task.io.so

4年前
1.4k
点赞
评论

HDFS-集群扩容及缩容

白黑名单配置白名单：表示在白名单的主机 IP 地址可以，用来存储数据。企业中：配置白名单，可以尽量防止黑客恶意访问攻击。黑名单：表示在黑名单的主机 IP 地址不可以，用来存储数据。企业中：配置黑名

4年前
827
点赞
评论

HDFS-数据负载均衡磁盘&&服务器

磁盘间负载均衡服务器间负载均衡注意：由于 HDFS 需要启动单独的 Rebalance Server 来执行 Rebalance 操作，所以尽量不要在 NameNode 上执行 start-bal

4年前
515
点赞
评论

NameNode 多目录配置在 hdfs-site.xml 文件中添加如下内容（两个目录结构下的数据相同） DataNode 多目录配置在 hdfs-site.xml 文件中添加如下内容（两个目录

4年前
426
点赞
评论

HDFS-集群压测

写测试写测试底层：测试命令行： doop-mapreduce-clientjobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -file

4年前
599
点赞
评论