白话BigData（大数据技术入门）使用大数据的动因一是数据的挑战，互联网时代海量数据产生，特别其中包含的大量的非结构

使用大数据的动因

一是数据的挑战，互联网时代海量数据产生，特别其中包含的大量的非结构化数据，蕴含着巨大的价值分析

二是传统技术的局限

三是数据驱动的智能化，早在2014年，阿里巴巴提出从IT时代走向DT时代

简单来讲就是由传统的信息技术系统转变为由数据驱动的智能系统。

Hadoop是Apache基金会下的一个开源分布式系统框架（存储+计算），以分布式文件系统(HDFS)、资源调度和任务（YARN）、分布式计算框架（MapReduce）为核心，为用户提供了底层细节透明的分布式基础架构

Hadoop主要由三部分组成：

HDFS主要包含三部分：

通过漫画的方式形象的描述HDFS读入和写入数据的过程，如下图所示：

读数据：

写数据：

高可用性：

漫画容错性：

MapReduce 提供了一个高度抽象化的编程模型，利用“分而治之”（应用分布式集群是分开处理，没有聚合的过程）的思想实现大规模数据集的并行运算。

它的核心包括Map(映射)和Reduce(归集)组成，用户只需要继承 Mapper 和 Reducer 类就可以完成分布式编程，它极大地方便了编程人员在不会分布式并行编程的情况下，将程序运行在分布式系统上。

某个key特别多会造成数据倾斜

使用MapReduce实现WordCount

代码实现如图：

HipHop for PHP 的故事：Facebook早期由PHP编写，随着访问量的增加，性能遇到瓶颈，解决方案是使用C语言改写，改写方案有两套：

由此Facebook开发了HipHop for PHP，将PHP代码转换为高度优化的C++代码。

同样的Hive的诞生和HipHop for PHP类似，它是基于 Hadoop 的一个数据仓库工具，最大的特点是将 Hive SQL语句转换为MapReduce任务执行，可以使BI分析人员能快速上手，并将传统的数仓平滑切换到大数据平台

要学习的还有很多！！