大数据集群

170 阅读2分钟
  1. 集群和分布式的概念 分布式:一般指的是大数据的计算问题。会出现单点故障问题 集群:备份,不会出现单点故障问题。解决的是计算和存储,指的就是大数据

  2. Hadoop的发展 Google发布的论文,有nutch项目的开发人员实现,形成Hadoop(hdfs和MapReduce) hdfs: 存储 MapReduce:计算

  3. Hadoop的商业版和开源免费版 Apache:免费的,但是兼容性差,例如:Hadoop2.7.5就不兼容spark1.6 cloudera :CDH ,收费了

  4. hdfs和yarn的角色(重点) hdfs: namenode:管理元数据(文件名称,文件属性,文件大小,文件位置...) 元数据:描述数据的数据 secondartnamenode:辅助namenode管理元数据,辅助namenode管理集群。并不是为了当namenode挂掉了,顶替namenode他的位置。是为了当namenode重启的时候帮他恢复元数据 datanode:存储数据 yarn: resourcemanager:主,master,接收任务,分配资源 nodemanager:从节点,slave,执行任务

  5. hdfs的特点:

    1. 支持一次写入,多次读取,支持追加写入。所以一直不停的存数据,不支持随机读写能力。hive也没有update功能
    2. 支持廉价的机器 3.支持不关闭集群添加节点
  6. hdfs的四种角色 client:客户端 切分文件 发送读写请求 namenode: 元数据的关联 权限的审核 datanode: 数据的存储 secondartnamenode: 辅助管理元数据

hdfs的shell命令: hdfs dfs -ls /user/hive :查看hdfs文件系统上的/user/hive目录下的内容 hdfs dfs -mkdir /bigdata_61/test1 hdfs dfs -put start-all.sh /bigdata_61 hdfs dfs -get /bigdata_61/start-all.sh /bigdata_59 将hdfs上面的文件下载到本地文件系统(linux) hdfs dfs -mv /bigdata_61/start-all.sh /bigdata_61/test1 hdfs dfs -cp /bigdata_61/test1/start-all.sh /bigdata_61/test1/test2 hdfs dfs -cat /bigdata_61/test1/test2/start-all.sh

hdfs的角色: namenode:管理元数据 secondartnamenode:辅助namenode管理元数据 datanode:实际存储数据的地方 yarn的角色: resoucemager:资源管理,资源分配 nodemanager:执行任务