hadoop系列(1)---Hadoop介绍与由来

·  阅读 107

「这是我参与11月更文挑战的第1天,活动详情查看:2021最后一次更文挑战

Hadoop诞生于2006年,是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。

它支持在商品硬件构建的大型集群上运行的应用程序。 Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。谷歌三大论文分别为 《Google Mapreduce》、《Google File System》、《Googel Bigtable》 而Hadoop就是依据google的前两篇论文而来的也就是《Google Mapreduce》与《Google File System》。

Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。

(作者<Doug Cutting>他儿子最喜欢的玩具象的名字:hadoop)

从计算机专业的角度看,Hadoop是一个分布式系统基础架构 由Apache基金会开发。

Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。

Hadoop框架透明地为应用提供可靠性和数据移动

它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。

它使应用程序与成千上万的独立计算的电脑和PB级的数据。

所以Hadoop既包含了分布式文件系统的功能也包含了分布式运算的功能。

但是在当时市面上其实已经存在了许多的分布式文件系统,为什么还要开发Hadoop呢?

这就得说说hadoop的分布式计算的功能了。

为了更好地计算在hadoop完美体现了计算向数据移动的特性,在大数据计算的后续发展奠定了一定的思想基础。

分类:
后端
标签:
分类:
后端
标签:
收藏成功!
已添加到「」, 点击更改