Hadoop

Hadoop

Hadoop

这里是写一些关于hadoop的笔记

等 5 人订阅共58篇文章创建于2022-08-25

Hadoop运行模式（二）、SSH无密登录配置、生成公钥和私钥、集群配置、集群部署规划、默认配置文件、核心配置文件、HDFS配置文件、YARN配置文件、MapR

3.Hadoop运行模式 3.3SSH无密登录配置 3.3.1配置ssh 3.3.1.1基本语法 ssh 另一台电脑的IP地址 3.3.1.2ssh连接时出现Host key verification

3年前
1.9k
2
评论

Hadoop运行模式（三）、群起集群、配置workers、启动集群、启动HDFS、拼接、Web端查看HDFS的NameNode、Web端查看YARN的Resou

3.Hadoop运行模式 3.5群起集群 3.5.1配置workers summer@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoo

3年前
1.8k
2
评论

Hadoop运行模式（四）、配置历史服务器、配置日志的聚集、删除HDFS上已经存在的文件、集群启动/停止方式总结、配置mapred-site.xml、配置yar

3.Hadoop运行模式 3.6配置历史服务器为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下： 3.6.1配置mapred-site.xml 配置前记得将yarn关闭 [sum

3年前
1.2k
2
评论

Hadoop运行模式（五）、编写Hadoop集群常用脚本、Hadoop集群启停脚本、常用端口号说明、集群时间同步、时间服务器配置、其他机器配置

3.Hadoop运行模式 3.9编写Hadoop集群常用脚本 3.9.1Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh [summer@hado

3年前
1.1k
2
评论

Hadoop常见错误及解决方案、Permission denied: user=dr.who, access=WRITE, inode=“/“:summer:s

4.常见错误及解决方案 1）防火墙没关闭、或者没有启动YARN INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.

3年前
1.4k
2
评论

Hadoop(HDFS)概述、HDFS产生背景、HDFS定义、HDFS优缺点、HDFS组成架构、HDFS文件块大小（面试重点）

高容错性，数据自动保存多个副本。它通过增加副本的形式，提高容错性、适合处理大数据，数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；文件规模：能够处理百万规模以上的文件数量，数量相当之大、

3年前
1.3k
2
评论

Hadoop中HDFS的Shell操作（开发重点）、启动Hadoop集群、基本语法、常用命令实操、命令大全、-help、-mkdir、-moveFromLoca

-help：-mkdir：-moveFromLocal：-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去、-put：等同于copyFromLocal，生产环境更习惯用put、-a

3年前
1.1k
2
评论

Hadoop中HDFS的API操作、客户端环境准备、配置HADOOP_HOME环境变量

客户端去操作HDFS时，是有一个用户身份的。默认情况下，HDFS客户端API会从采用Windows默认用户访问HDFS，会报权限异常错误。所以在访问HDFS时，一定要配置用户。org.apache.h

3年前
1.3k
2
评论

Hadoop中HDFS的API操作、HDFS文件上传（测试参数优先级）、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和

参数优先级排序：（1）客户端代码中设置的值 >（2）在项目资源目录下的用户自定义配置文件（如在resources下创建的hdfs-site.xml，可以看上面的过程） >（3）服务器的自定义配置（hd

3年前
1.4k
2
评论

Hadoop中HDFS的读写流程（面试重点）、为什么搜不到BlockPlacementPolicyDefault、网络拓扑-节点距离计算、机架感知（副本存储节点

（1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。（2）NameNode返回是否可以上传。（3

3年前
1.3k
2
评论

Hadoop中NameNode和SecondaryNameNode、NN和2NN工作机制、Fsimage和Edits解析、oiv查看Fsimage、oev查看E

查看oiv和oev命令、sz命令，从虚拟机上下载到windows上、通常情况下，SecondaryNameNode每隔一小时执行一次、一分钟检查一次操作次数，当操作次数达到1百万时，Secondary

3年前
1.2k
2
评论

Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置

思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（1）和绿灯信号（0），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？（1）一个数据块在DataNode上以文件形式存储在磁盘上，包括

3年前
1.3k
2
评论

Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例

优点：易于编程、良好的扩展性、高容错性、适合PB级以上海量数据的离线处理、缺点：不擅长实时计算、不擅长流式计算、不擅长DAG（有向无环图）计算、MapReduce核心功能是将`用户编写的业务逻辑代码`

3年前
1.2k
2
评论

Hadoop序列化、概述、自定义bean对象实现序列化接口（Writable）、序列化案例实操、编写流量统计的Bean对象、编写Mapper类、编写Reduce

什么是序列化、为什么要序列化、为什么不用Java的序列化、Hadoop序列化特点：1）紧凑：高效使用存储空间。2）快速：读写数据的额外开销小。3）互操作：支持多语言的交互、在企业开发中往往常用的基本

3年前
1.1k
2
评论

Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中，设置自定义Partit

自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask、Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。（1）Shuffle中的

3年前
1.3k
3
评论

Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制

如果是集群模式，还有jar包，面试官问这类问题是时候问你看过源码吗，回答是：提交三样东西，一个是xml，一个jar包，一个切片信息、job.xml的内容是job运行所需要的参数设置默认值、state的

3年前
1.0k
2
评论

Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineText

源码中计算切片大小的公式、切片大小设置、获取切片信息API、FileInputFormat常见的接口实现类包括：`TextInputFormat、KeyValueTextInputFormat、NLi

3年前
1.2k
2
评论

Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制

如果是集群模式，还有jar包，面试官问这类问题是时候问你看过源码吗，回答是：提交三样东西，一个是xml，一个jar包，一个切片信息、job.xml的内容是job运行所需要的参数设置默认值、state的

3年前
1.1k
2
评论

Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结，那些可以证明你看过切片的源码

Hadoop中的MapReduce框架原理、切片源码断点在哪断并且介绍相关源码、FileInputFormat切片源码解析、总结，那些可以证明你看过切片的源码

3年前
1.1k
2
评论