Hadoop

Hadoop

Hadoop

这里是写一些关于hadoop的笔记

等 5 人订阅共58篇文章创建于2022-08-25

Hadoop中的Map Join

13.6.3 Map Join 13.6.3.1 使用场景 Map Join适用于一张表十分小、一张表很大的场景。 13.6.3.2 优点思考：在Reduce端处理过多的表，非常容易产生数据

3年前
1.3k
9
评论

Hadoop中Join应用

13.6 Join应用 13.6.1 Reduce Join Map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标

3年前
1.2k
9
评论

Hadoop中ReduceTask源码解析流程

13.5.4.2ReduceTask源码解析流程搜索这个，然后选择第一个然后ctrl+f搜索isMapOrReduce这个，然后再这行打上断点，然后再继续下一步，一直到如下位置这里一定要提前打上

3年前
1.3k
8
评论

Hadoop中MapTask 源码解析流程

13.5.4.1 MapTask 源码解析流程运行前在这里context.write(outK, outV);打上断点。这里强行进入会进入环形缓冲区，我们来看看是不是，点击强行进入这里是write

3年前
1.2k
8
评论

Hadoop中MapTask 工作机制

13.MapReduce框架原理 13.5 MapReduce 内核源码解析 13.5.1 MapTask 工作机制（1）Read阶段：MapTask通过InputFormat获得的RecordRe

3年前
1.4k
8
评论

Hadoop中的MapReduce框架原理、OutputFormat数据输出，接口实现类、自定义OutputFormat案例实操

@[toc] 13.MapReduce框架原理 13.4 OutputFormat数据输出 13.4.1 OutputFormat接口实现类 OutputFormat是MapReduce输出的基类，所

3年前
1.2k
8
评论

Hadoop中的MapReduce框架原理、Combiner 合并案例实操

@[toc] 13.MapReduce框架原理 13.3 Shuffle机制 13.3.9 Combiner 合并案例实操 13.3.9.1 需求统计过程中对每一个 MapTask 的输出进行局

3年前
1.4k
8
评论

Hadoop中的MapReduce框架原理、WritableComparable排序案例实操（区内排序）、Combiner合并、自定义 Combiner 实现步

@[toc] 13.MapReduce框架原理 13.3 Shuffle机制 13.3.7 WritableComparable排序案例实操（区内排序） 13.3.7.1 需求要求每个省份手机号输出

3年前
1.2k
6
评论

Hadoop中的MapReduce框架原理、WritableComparable排序、排序分类、WritableComparable排序案例实操（全排序）、（二

@[toc] 13.MapReduce框架原理 13.3 Shuffle机制 13.3.4 WritableComparable排序 13.3.4.1 排序概述排序是MapReduce框架中最重

3年前
1.3k
5
评论

Hadoop中的MapReduce框架原理、自定义Partitioner步骤、在Job驱动中，设置自定义Partitioner、Partition 分区案例

@[toc] 13.MapReduce框架原理 13.3Shuffle机制 13.3.2Partition分区 13.3.2.3自定义Partitioner步骤 13.3.2.3.1自定义类继承Par

3年前
1.1k
3
评论

大数据概论、大数据概念、大数据特点（4V）、Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、大数据应用场景、大

1.大数据概念大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的

3年前
1.7k
2
评论

Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构

1.Hadoop 概述 1.1Hadoop 是什么 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，Ha

3年前
3.4k
11
评论

Hadoop运行环境搭建（开发重点）、VMware 安装

想看远程终端工具Xshell、Xftp传输工具、VMware 安装CentOS7的点这里想看远程终端工具Xshell、Xftp传输工具https://blog.csdn.net/Redamancy0

3年前
1.1k
2
评论

远程终端工具Xshell、Xftp传输工具、VMware 、CentOS7的下载、安装和使用教程（完整版）

如果想看CentOS7安装可以看https://blog.csdn.net/Redamancy06/article/details/126064465 如果想看VMware 安装可以看https://

3年前
1.4k
4
评论

Hadoop运行环境搭建（开发重点一）、模板虚拟机环境准备、卸载虚拟机自带的JDK、安装epel-release、配置summer用户具有root权限，方便后期

1.Hadoop运行环境搭建（开发重点） 1.1模板虚拟机环境准备 1.1.1安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G 远程终端工具Xsh

3年前
1.2k
2
评论

Hadoop运行环境搭建（开发重点二）克隆虚拟机、利用模板机hadoop100，克隆三台虚拟机：hadoop102 hadoop103 hadoop104、修改

Hadoop运行环境搭建（开发重点） 1.2克隆虚拟机 1.2.1背景为什么不从hadoop101开始，因为一开始hadoop101留给了单台服务器操作使用，而用102,103,104搭建的是完全分

3年前
1.2k
2
评论

Hadoop运行环境搭建（开发重点三）、在hadoop102安装JDK、配置JDK环境变量、测试JDK是否安装成功

2.Hadoop运行环境搭建（开发重点） 2.3在hadoop102安装JDK 为什么只在hadoop102上安装JDK，因为在hadoop102中安装后将JDK拷贝到hadoop103和hadoop

3年前
1.2k
2
评论

Hadoop运行环境搭建（开发重点四）在hadoop102安装hadoop、配置hadoop环境变量、测试Hadoop是否安装成功、hadoop重要目录

2.Hadoop运行环境搭建（开发重点） 2.4在hadoop102安装Hadoop 2.4.1用Xftp传输工具将JDK导入到opt目录下面的software文件夹下面点这个将这两个包拖到/op

3年前
1.3k
2
评论

Hadoop运行模式（一）、本地运行模式（官方WordCount）、完全分布式运行模式（开发重点）、scp安全拷贝、rsync 远程同步工具、xsync集群分发

3.Hadoop运行模式 Hadoop官方网站：http://hadoop.apache.org/ Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。伪分布式模式：也是单机运行，但

3年前
1.2k
2
1