大数据集群集群和分布式的概念 Hadoop的发展 Google发布的论文，有nutch项目的开发人员实现，形成Hadoo

集群和分布式的概念分布式：一般指的是大数据的计算问题。会出现单点故障问题集群：备份，不会出现单点故障问题。解决的是计算和存储，指的就是大数据
Hadoop的发展 Google发布的论文，有nutch项目的开发人员实现，形成Hadoop（hdfs和MapReduce） hdfs：存储 MapReduce：计算
Hadoop的商业版和开源免费版 Apache：免费的，但是兼容性差，例如：Hadoop2.7.5就不兼容spark1.6 cloudera ：CDH ，收费了
hdfs和yarn的角色（重点） hdfs： namenode:管理元数据（文件名称，文件属性，文件大小，文件位置...）元数据：描述数据的数据 secondartnamenode:辅助namenode管理元数据，辅助namenode管理集群。并不是为了当namenode挂掉了，顶替namenode他的位置。是为了当namenode重启的时候帮他恢复元数据 datanode:存储数据 yarn： resourcemanager：主，master，接收任务，分配资源 nodemanager：从节点，slave，执行任务
hdfs的特点：
1. 支持一次写入，多次读取，支持追加写入。所以一直不停的存数据，不支持随机读写能力。hive也没有update功能
2. 支持廉价的机器 3.支持不关闭集群添加节点
hdfs的四种角色 client：客户端切分文件发送读写请求 namenode: 元数据的关联权限的审核 datanode: 数据的存储 secondartnamenode：辅助管理元数据

hdfs的shell命令： hdfs dfs -ls /user/hive :查看hdfs文件系统上的/user/hive目录下的内容 hdfs dfs -mkdir /bigdata_61/test1 hdfs dfs -put start-all.sh /bigdata_61 hdfs dfs -get /bigdata_61/start-all.sh /bigdata_59 将hdfs上面的文件下载到本地文件系统（linux） hdfs dfs -mv /bigdata_61/start-all.sh /bigdata_61/test1 hdfs dfs -cp /bigdata_61/test1/start-all.sh /bigdata_61/test1/test2 hdfs dfs -cat /bigdata_61/test1/test2/start-all.sh

hdfs的角色： namenode:管理元数据 secondartnamenode:辅助namenode管理元数据 datanode:实际存储数据的地方 yarn的角色： resoucemager:资源管理，资源分配 nodemanager：执行任务