首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据学习之路(Hadoop)
潇雷
创建于2021-05-10
订阅专栏
本专栏主要记录自己在学习大数据过程中Hadoop技术的细节文章总结
等 4 人订阅
共18篇文章
创建于2021-05-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据学习之路(18):Hadoop的yarn资源调度器介绍
一、Yarn基本架构 yarn是一个资源调度器,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于操作系统上的应用程序。 主要由ResourceM
大数据学习之路(17):MapReduce的join应用
一、前言 MapReduce的join 可以类似于sql的join ,不同的是sql是对表进行连接查询,而mapreduce的join是对文件进行连接查询。解决的问题就是不同数据的合并问题。 区别:
大数据学习之路(16): MapReduce的数据输出OutPutFormat讲解
一、outputFormat概述 由之前的MapReduce数据流向可知,数据从inputFormat输入到Mapper端,经过Shuffle后到达Reduce,再经过OutputFormat输出到文
大数据学习之路(15):MapReduce的combiner合并小能手
一、combiner 合并 1.1 工作位置 如下图回顾,combiner是MapReduce阶段的可选流程。 它的工作位置: 1.2 为什么要使用combiner 我们知道,MapReduce 使用
大数据学习之路(14):MapReduce的排序及案例
一、WritableComparable 排序 1.1 概述 排序是MapReduce框架的最重要操作之一。 MapTask和ReduceTask均会对数据按照key进行排序,该操作属于Hadoop的
大数据学习之路(13):MapReduce的Shuffle机制及Partition分区
一、简介 shuffle 描述着数据从maptask 输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,map的输出要用到Reduce中必须经过的shuf
大数据学习之路(12):MapReduce 的数据输入InputFormat讲解
一、MapReduce 数据流 在我们之前的代码中,输入路径是由FileInputFormat来读取的,中间的流程如下: MapReduce的过程: 输入数据到输出数据如上图所示。过程可以划分未三个阶
大数据学习之路(11):Hadoop 序列化及案例实操
一、序列化概述 1.1 什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便存储到磁盘(持久化)和网络传输。将内存中的对象以字节序列读取到内存,并构造成对应的对象。 反序列
大数据学习之路(10):MapReduce 编程入门 实操wordcount
前提 本文主要介绍Hadoop的数据类型,然后写一个入门案例来统计wordcount的单词数量。通过本文的学习,可以了解到hadoop 与java不同的数据类型,然后入门MapReduce程序。 一、
大数据学习之路(9):MapReduce 概述
学一个东西,我们要知道它是什么?它能干什么?它是怎么做的?这三个问题。这篇文章将回给出这几个问题的答案,当然都是理论知识,了解了这些,后续进行实战学习。 mapReduce 面向大数据并行处理的计算模型、框架和平台,核心功能就是将用户编写的业务逻辑代码和自带默认组件整合成一个完…
大数据学习之路(8): Datanode工作机制
1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据:包括数据块的长度,块数据的校验和,以及时间戳。 2、DataNode启动后会向NameNode注册,周期性(1小时)的向namenode上报所有的块信息。 3、心跳是每3秒一次…
大数据学习之路(7):NameNode和SecondNameNode是怎样工作的?
在前面的学习中,我们知道namenode 是负责对整改HDFS中数据的元数据进行管理的,而Secnodnamenode是辅助namenode的作用,定期合并fsimage和edits文件。namenode是负责管理的数据块的映射信息,那么它本身也是要存储数据的,那么它的数据存储…
大数据学习之路(6):HDFS数据流
1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2)NameNode返回是否可以上传。 3)客户端请求第一个 Block上传到哪几个DataNode服务器上。 4)NameN…
大数据学习之路(5): HDFS客户端操作
用idea来操作hdfs的shell基本命令。因此,windows需要做些环境变量的配置。 1、下载hadoop3.1的windows依赖,此处用3.1.0来代替。配置hadoop_home 3、创建Maven工程,导入依赖。 查看文件名称、权限、长度、块信息。 本质就是IO流…
大数据学习之路(4): HDFS概述及shell操作
根据摩尔定律的预测,每18个月集成电路的晶体管的数量就会增加一倍。我们的计算机升级迭代虽然没这么夸张,但是内存也在逐渐升级,但是我们的大数据时代,每天积累的数据量是越来越多的,而能够把这堆数据都存在一台电脑上,那么这台电脑的成本是极大的,传统的文件管理系统也无法应对这大规模数据…
大数据学习之路(3):hadoop的完全分布式搭建
准备三台虚拟机。 因为集群是有多台服务器组成的,当设计到配置的更改,要求集群的配置是同步的,所以需要在每台机器上都做相同的更改。当集群的服务器很多时,重复性的工作做起来没有意义且非常麻烦,因此,需要集群分发脚本。 rsync和scp的区别:用rsync做文件的复制要比scp的速…
大数据学习之路(2):hadoop的概述及本地运行和伪分布式运行
Hadoop:提供分布式的存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和分布式计算,是一个分布式的系统基础架构。用户可以在不了解分布式底层细节的情况下存储。主要解决:海量数据的存储和海量数据的分析计算问题。 hadoop的优势就是高可靠性和高扩展性,通过将…
大数据学习之路(1):大数据认知
首先,关于大数据的定义,我比较喜欢这段话来解析:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。马云在演讲中提到过,未来的时代不是IT时代,而是DT时代。也就是Data Technology(数据科技)的缩写,而它的特点就是4V特征,造成…