Hadoop和Redshift的区别Hadoop和Redshift的区别 Hadoop是一个由Apache软件基金会开

Hadoop vs Redshift

Hadoop和Redshift的区别

Hadoop是一个由Apache软件 基金会开发的开源框架，其主要优点是可扩展性、可靠性和分布式计算。数据处理、存储、访问和安全是Hadoop生态系统中的几类功能。HDFS具有高吞吐量，这意味着能够以并行处理能力处理大量数据。Redshift是由Amazon.com Inc.内部的Amazon Web Services部门开发的云主机网络服务，是Amazon提供的现有服务之外的。它用于在云中设计大规模的数据仓库。Redshift是一个PB级的数据仓库服务，它是完全管理的，并具有成本效益，可以在大型数据集上运行。

让我们详细研究一下Hadoop和Redshift

Hadoop HDFS具有很高的容错能力，被设计为在低成本的硬件系统上运行。Hadoop可以在其系统内处理最小类型大小为TeraBytes到GigaBytes的文件。HDFS是由名称节点和数据节点组成的主从架构，其中名称节点包含元数据，数据节点包含要处理或操作的真实数据。

RedShift使用不同的数据加载技术，如BI（商业智能）报告、分析工具和数据挖掘。Redshift提供一个控制台来创建和管理亚马逊Redshift集群。Redshift数据仓库的核心组件是一个集群。

Apache.org

图片来源：Apache.org

RedShift架构

图片来源：Amazon.com

Hadoop和Redshift之间的头对头比较（信息图）。

下面是Hadoop和Redshift之间的10大比较，如下。

Hadoop vs Redshift Infographics

Hadoop与Redshift的主要区别

以下是Hadoop与Redshift之间的主要区别如下

1.Hadoop HDFS（Hadoop分布式文件系统）架构有名称节点和数据节点，而Redshift有领导节点和计算节点，其中计算节点将被分割成片状。

2.2.Hadoop提供了一个命令行界面来与文件系统进行交互，而RedShift有一个管理控制台来与亚马逊的存储服务如S3、DynamoDB等进行交互。

3.3.数据库操作需要由开发人员进行配置。Redshift通过解析执行计划来实现数据库操作的自动化。

4.4. Hadoop有几个第三方工具支持，可以很容易地集成，而Redshift只支持亚马逊在其云中开发的产品。

5.5.在Hadoop的架构设计中，网络、存储、安全和性能被认为是主要元素，而在Redshift中，这些元素可以通过亚马逊云管理控制台轻松而灵活地配置起来。

6.6. Hadoop是一个基于Java应用编程接口（API）的文件系统架构，而Redshift则是基于关系模型的数据库管理系统（RDBMS）。

7.7.Hadoop可以与不同的供应商进行整合，而Redshift在这种情况下没有支持，亚马逊是他们唯一的供应商。如果用户对服务不满意怎么办？在这种情况下，Hadoop是一种优势。

8.大多数现有公司仍在使用Hadoop，而新客户则选择RedShift。

9.9.在性能方面，Hadoop总是落后于Redshift，在对大量数据进行查询执行的情况下，Redshift总是胜出。

10.10.Hadoop使用Map Reduce编程模型来运行作业。亚马逊Redshift使用亚马逊的Elastic Map Reduce。

11.Hadoop使用Map Reduce编程模型来运行作业。Amazon Redshift使用Amazon的Elastic Map Reduce。

12.12.Hadoop更适合每天运行批处理作业，这样会更便宜，而Redshift在在线分析处理（OLAP）技术方面更便宜，该技术存在于许多商业智能工具背后。

13.13.Hadoop在运行查询时比Redshift慢10倍，同样，Hadoop的成本比Redshift高10倍，导致Hadoop在Redshift之前是最不受欢迎的。

14.14.在数据加载方面，Hadoop也一直落后于Redshift，系统将数据从存储空间加载到其文件处理系统所需的时间。

15.15.Hadoop可用于低成本存储、数据归档、数据湖、数据仓库和数据分析，而Redshift则属于数据仓库功能，这限制了其多用途的使用。

16.Hadoop平台为各种外部供应商和自己的Apache项目提供支持，如Storm、Spark、Kafka、Solr等，而另一方面，Redshift仅对亚马逊产品提供有限的集成支持。

Hadoop与Redshift对比表

比较的基础比较	HADOOP	REDSHIFT
可用性	Apache项目的开源框架	亚马逊提供的有价服务
实施	由Hortonworks和Cloudera供应商等提供。	由亚马逊开发和提供
性能方面	Hadoop MapReduce作业速度较慢	Redshift的性能比Hadoop集群更快。
可扩展性	可扩展性方面的限制	很容易根据需求缩小/扩大规模
价格	运行查询的费用为每月200美元	价格取决于服务器的区域，比Hadoop便宜。例如：20美元/月
速度	与Redshift相比，速度较快，但较慢	比Hadoop快10倍
查询速度	运行1.2TB的数据需要1491秒	运行1.2TB数据需要155秒
数据整合	灵活使用本地文件系统和任何数据库	只能从Amazon S3或DynamoDB加载数据
数据格式	支持所有的数据格式	严格的数据格式，如CSV文件格式
使用的便利性	管理活动复杂，处理起来比较麻烦	自动备份和数据仓库管理

总结

最后总结一下，这次比较的大赢家是Redshift，它在操作、维护和生产力方面胜出，而Hadoop在性能扩展性和服务成本方面有所欠缺，唯一的好处是容易与第三方工具和产品整合。由于Redshift的高可用性和比Hadoop更低的运营成本，它最近一直在发展，并被许多客户和顾客接受，这使得它越来越受欢迎。但是，到目前为止，大多数现有的财富1000强公司都在其架构中使用Hadoop平台来管理客户数据。

在大多数情况下，RedShift一直是任何客户或顾客为商业目的考虑的最佳选择，以处理任何金融机构或公共信息的大型和敏感数据，具有更多的数据完整性和安全性。

除此之外，Hadoop也有自己的优势，它是一个开源项目，并且已经有很多年的历史了，这也导致现有的系统被替换为一个产生成本的过程。最后应该根据需求和灵活性来选择产品，而不是根据驱动的业务需求来定价或普及。