大数据与hadoop

253 阅读3分钟

内容出自一下链接:

       bigdata.evget.com/post/407.ht…

       blog.csdn.net/huasdsadsa/…

正文:

1.大数据

   所谓大数据,就是从各种类型的数据中,快速获得有价值信息的能力.
   它是对那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集所下的定义.

   大数据具有如下特征(4V):

       数据量大,TB->PB

       数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;

       商业价值高,找到有价值的信息有如沙里淘金,其价值却又弥足珍贵。找到
   这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;

       处理时效性高,海量数据的处理需求不再局限在离线计算当中.

2. Hadoop

   HadoopApache软件基金会发起的一个项目,是一种分布式数据和计算的框架.

  它很擅长存储大量的半结构化的数据集.数据可以随机存放,所以一个磁盘的失败并不会带来数据丢失.Hadoop也非常擅长分布式计算——快速地跨多台机器处理大型数据集合.

3.大数据hadoop 之间的联系

    伴随大数据技术的普及,Hadoop作为数据分布式处理系统的典型代表因其开源的特点和卓越的性能成为大数据领域事实的标准,甚至有人认为大数据就是Hadoop,其实这是一个误区
.但Hadoop并不等于大数据,Hadoop只是处理离线数据的分布式存储和处理系统.

    如用于处理流数据的Storm、处理关系型数据的Oracle、处理实时机器数据的Splunk……目前主流的大数据系统很多,Hadoop只是其中的代表.

   Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上

,之后再将碎片任务的结果以单个数据集的形式加载(Reduce)到数据仓库里.

   Hadoop核心组件:HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统).

   列举一些常见的大数据框架如下:

      文件存储:Hadoop HDFS、Tachyon、KFS
      离线计算:Hadoop MapReduceSpark

      流式、实时计算:Storm、Spark Streaming、S4、Heron

      K-V、NOSQL数据库:HBase、Redis、MongoDB
     资源管理:YARN、Mesos

     日志收集:Flume、Scribe、Logstash、Kibana

     消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ

     查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL
                      Drill、Flink、Kylin、Druid
     分布式协调服务:Zookeeper
     集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
     数据挖掘、机器学习:Mahout、Spark MLLib
     数据同步:Sqoop
     任务调度:Oozie

正文结束.

不足之处还请批评指正