大数据 - 寇寇寇先森的收藏集 - 掘金

大数据

寇寇寇先森

更多收藏集

8篇文章 · 0订阅

HDFS的基本概念和体系结构

NameNode是Apache Hadoop HDFS体系结构中的主节点，用于维护和管理DataNode（从节点）上存在的块。NameNode是一个非常高可用性的服务器，用于管理文件系统命名空间并控制客户端对文件的访问。HDFS体系结构的构建方式使用户数据永远不会驻留在Name…

Michaelhbjian
6年前
1.1k
1
评论

HDFS单点故障和线性扩展问题

水平扩展问题，随着集群规模的扩大，1.0 时集群规模达到3000时，会导致整个集群管理的文件数目达到上限（因为 NameNode 要管理整个集群 block 元信息、数据目录信息等）。 2、NameNode Federation：是用来解决 HDFS 集群的线性扩展能力。关于…

Michaelhbjian
6年前
2.5k
2
评论

Kafka最全面试题整理|划重点要考!!!

有很多人问过我要过Kafka相关的面试题，我一直懒得整理，这几天花了点时间，结合之前面试被问过的、别人咨询过的、我会问别人的进行了相关的整理，也就几十题，大家花个几分钟看看应该都会。面试题列表如下：如果上面的问题都能掌握，相信在面试Kafka的时候肯定能够完全应付。如果还应付…

朱小厮
6年前
2.8k
8
4

Hadoop YARN 架构详解

YARN是MRv1基础上演化而来的，克服了MRv1中的各种局限性。在正式的介绍YARN之前，我们先要了解MRv1的一些局限性，这可概括为以下几个方面：扩展性差：在MRv1中，JobTracker同时兼备了资源管理和作业控制两个功能，这个成为系统的一个最大瓶颈，严重制约了Had…

Michaelhbjian
6年前
4.6k
1
评论

《浅入浅出》-RocketMQ

帅丙我工作以来接触的消息队列中间件有RocketMQ、Kafka、自研，是的因为我主要接触的都是电商公司，相对而言业务体量还有场景来说都是他们比较适合，再加上杭州阿里系公司偏多，身边同事或者公司老大基本都是阿里出来创业的，那在使用技术栈的时候阿里系的开源框架也就成了首选。就算…

敖丙
6年前
75k
1.2k
85

《浅入浅出》-RocketMQ

插曲：Kafka源码预热篇--- Java NIO

因为Kafka的源码阅读是需要对Java NIO知识有一定的了解的，所以怎么说，如果觉得自己对于Java这块算是比较熟悉，同样作为插曲篇的这篇是可以直接忽略。因为这篇也不会涉及什么重难点，主要还是过过基础，让后面的源码篇读起来更加通畅。 Java New IO是从Java1.4…

说出你的愿望吧
6年前
3.3k
49
6

大数据平台CDH搭建

Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称“CDH”），基于Web的用户界面,支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqo…

kaliarch
7年前
7.8k
18
评论

王知无出品，Flink最强学习资源合集！

Flink零基础入门Flink入门FlinkDataSet&DataSteamAPIFlink集群部署Flink重启策略Flink分布式缓存Flink重启策略Flink中的TimeFlink中的窗口F

王知无
6年前
3.4k
6
评论