Hadoop是什么?
适合大数据的分布式存储和计算平台,作者Doug Cutting ,受google三篇大数据论文启发。 Google File System中文版 Google MapReduce中文版 Google Bigtable中文版
Hadoop生态系统

Hadoop的核心项目
HDFS: hadoop distributed file system 分布式文件系统 MapReduce: 并行计算框架,基于文件系统进行数据计算。
HDFS的架构
主从结构 主节点只有一个:namenode,从节点有很多个:datanodes. namenode负责接收用户操作请求,维护文件系统的目录结构。管理文件与block之间的关系,block与datanode之间的关系。 datanode负责存储文件,文件被分割成block存储在磁盘上。为保证数据安全,文件会有多个副本。
MapReduce

