【Hadoop 系列】之 Hadoop 的优势与发展

239 阅读2分钟

1 Hadoop 优势

Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发运行处理海量数据的应用程序。

它主要有以下几个优点:

  • 高可靠性:Hadoop 按位存储和处理数据的能力值得人们信赖。

  • 高扩展性:Hadoop 是在可用的计算机集簇间分配数据完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  • 高效性:Hadoop 能够在节点之间动态地移动数据,以保证各个节点的动态平衡,因此其处理速度非常快。

  • 高容错性:Hadoop 能够自动保存数据的多份副本,并且.能够自动将失败的任务重新分配。

2 Hadoop 应用现状与发展趋势

由于 Hadoop 优势突出,基于 Hadoop 的应用已经遍地开花,尤其是在互联网领域。

  • Yaboo! 通过集群运行 Hadoop,用以支持广告系统和 Web 搜索的研究;
  • Facebook 借助集群运行 Hadoop 来支持其数据分析和机器学习;
  • 搜索引擎公司百度则使用 Hadoop 进行搜索日志分析和网页数据挖掘工作
  • 淘宝的 Hadoop 系统用于存储并处理电子商务交易的相关数据﹔
  • 中国移动研究院基于 Hadoop 的“大云”(BigCloud)系统对数据进行分析并对外提供服务。

2008 年 2 月,作为 Hadoop 最大贡献者的 Yahoo! 构建了当时最大规模的 Hadoop 应用。他们在 2000 个节点上面执行了超过 1 万个 Hadoop 虚拟机器来处理超过 5PB 的网页内容,分析大约 1 兆个网络连接之间的网页索引资料。这些网页索引资料压缩后超过 300TB。Yahoo! 正是基于这些为用户提供了高质量的搜索服务。

Hadoop 目前已经取得了非常突出的成绩。随着互联网的发展,新的业务模式还将不断涌现,Hadoop 的应用也会从互联网领域向电信、电子商务、银行、生物制药等领域拓展。相信在未来,Hadoop 将会在更多的领域中扮演幕后英雄,为我们提供更加快捷优质的服务。

参考文档:《Hadoop实战 第2版》