目录：我的大数据学习笔记可以通过长按二维码关注我的公众号，不过会先在掘金更新后同步过去。 PC端的这个右侧的目录找东西确

前言

可以通过长按二维码关注我的公众号，不过会先在掘金更新后同步过去。

PC端的这个右侧的目录找东西确实好找点，我每次写也非常注意看这块排版工不工整🤣，用这里去直接跳到对应的内容真的还算方便，所以就想着做个目录，以后如果写了新的，也会在这篇写上标题。

按照不同技术框架的划分形式。已经有写过的就写上，没写过的就先空着。

1. 分布式存储 HDFS

① HDFS基础概念篇

内容概要：block的概念与副本、机架存储策略、三大组件：NameNode，DataNode，SecondaryNamenode、元数据metaData、心跳机制和负载均衡机制

② HDFS的读写流程和一些重要策略

内容概要：HDFS的读写流程，hadoop HA高可用，联邦，存储小文件时的HAR和Sequence File

③ HDFS的基础总结及架构演进

内容概要：对前面两篇的一些总结及补充

2. 分布式计算 MapReduce

① MapReduce介绍

内容概要：mapper和reducer代码、shuffle、二排、数据倾斜的判断和减缓

3. 资源调度 Yarn

① 带你入坑大数据（四）--- 资源调度框架Yarn

内容概要：全是理论性的东西。yarn的应用场景、核心组件、应用调度过程、yarn的典型应用

4.分布式协调 Zookeeper

zookeeper写的时候姑且是按照Java的套路去写的，和大数据的操作扯不上关系，之后可能会进行相应的补充

① Zookeeper的基础概念

内容概要：包括zookeeper的简介和特征，会话机制、znode的数据构成和节点类型，还有zk的监听机制

② Zookeeper实现分布式锁

内容概要：锁的特征，zkClient的使用、使用节点不可重名+watch机制实现分布式锁、使用取号 + 最小号取lock + watch原理实现分布式锁

③ Zookeeper集群的搭建和leader选举

内容概要：伪集群形式的zookeeper的集群搭建，集群连接和监控，paxos算法的解释说明、zookeeper的leader选举机制

④ Zookeeper的分布式队列

内容概要：ZAB协议的介绍，数据同步，丢弃事务，leader崩溃恢复、zookeeper的分布式队列的实现逻辑及代码实现

⑤ Zookeeper的配置中心应用

内容概要：配置中心的介绍，数据结构，代码实现

⑥ Zookeeper的Master选举及官网小览

内容概要：master选举和zookeeper的相关实现、官网自己的一个浏览过程

5.Hadoop源码及优化

前置两篇RPC基础

从零开始的高并发（七）--- RPC的介绍，协议及框架

内容概要：简单过了一遍RPC是什么，三个过程，为什么我们需要它，它的特性和适用场景，RPC的流程及协议定义还有它的框架的一些小知识

从零开始的高并发（八）--- RPC框架的简单实现

内容概要：RPC的流程和任务分析及代码实现，附带过程优化，优化部分推荐先直接跳转总图查看

① Hadoop源码篇 --- NameNode的启动流程解析

内容概要：如题，NameNode启动流程分析，思路为验证NameNode是不是一个RPC的服务端

② Hadoop源码篇 --- DataNode的初始化与注册流程

内容概要：如题，DataNode启动流程分析，思路也是验证它是否是RPC的客户端，还有Hadoop HA高可用方案原理

③ Hadoop源码篇 --- 面试常问的Namenode元数据管理及双缓冲机制

内容概要：如题

6.Hive

7.Hbase

① MySQL同步数据到HBase

内容概要：如题，还有一些细节说明

8.Flume

9.Sqoop

10.azkaban

11.impala

12.Spark

① 从零开始认识 Spark

内容概要：Spark 的四大特性，基础架构，安装及任务提交的一些内容

② 一文带你过完Spark RDD的基础概念

内容概要：RDD 的五大特性说明，算子说明，RDD 的依赖关系，血缘，缓存机制，checkpoint机制，DAG 的生成及 stage 的划分

③ 关于Spark基础的一些小问题补充

内容概要：补充一些前两篇没提到的知识点，比如广播变量，任务调度，序列化的问题

④ 一文带你理清Spark Core调优的方方面面

内容概要：参考美团之前的Spark文章，提及 Spark 的十大开发原则及 Spark 的运行流程，还有内存模型调优及数据倾斜处理

⑤ Spark Streaming 的容错机制

内容概要：顾名思义，Executor 和 Driver 的容错

⑥ 完成你的第一个Spark Streaming程序

内容概要：顾名思义，运行流程说明及 BlockInterval 和 BatchInterval 的说明，setMaster 的理解补充

13.Kafka基础

① 大白话带你认识Kafka

内容概要：Kafka中的一些基础角色的介绍，topic，partition，producer，consumer，message，副本，消费者组，controller、kafka和zookeeper的配合，kafka的顺序写和零拷贝，日志分段存储机制和kafka的三层网络模型

② Kafka的集群部署实践及运维相关

内容概要：这篇并不是在说概念，而是说一些集群的参数考量方面、集群搭建的重要参数、集群的简单操作和一些客户端

③ Kafka的生产者原理及重要参数说明

内容概要：生产者原理（ProducerRecord，Partitioner、缓冲区和Sender线程），生产者的代码及一些调优参数

④ Kafka的生产者案例和消费者原理解析

内容概要：生产者的一个小案例实现及消费者原理（offset，coordinator），消费者代码及核心参数

⑤ Kafka的运行流程总结和源码前准备

内容概要：LEO&HW更新原理，kafka运行的总流程梳理，源码的阅读环境

14.Kafka源码

① Kafka源码预热篇--- Java NIO

内容概要：传统IO和NIO的区别，NIO（buffer，channel，selector、pipe）的介绍及阻塞性与非阻塞性网络通信的代码演示，主要是为了Kafka源码准备

② Kafka源码篇 --- 你一定能get到的Producer的初始化及元数据获取流程

内容概要：通过源码中自带的Producer.java例子分析 KafkaProducer 的初始化过程及发送流程，还有元数据管理及 waitOnMetadata 的工作逻辑

③ Kafka源码篇 --- 可能是你看过最详细的RecordAccumulator解读

内容概要：如题，缓冲区RecordAccumulator的源码解读

15.Flink

① Flink 基础入门

内容概要：Flink 的四大特性及案例说明，不同模式下的安装提交

② Flink算子操作

内容概要：Flink shell 的使用，数据源及常用算子的示例说明

③ 过一下Flink的各种State

内容概要：Flink 的 state 代码示例，按照官方示例展示

④ Flink的checkPoint机制

内容概要：之前程序的 checkpoint 改造，checkpoint机制的说明及如何使用

16.ELK

① Elk环境篇 --- 本地快速搭建你的ElasticSearch及Kibana

内容概要：本地搭建 ElasticSearch 和 Kibana（提供安装包），及 ES 的一些简单操作

finally

即使前方仍旧荆棘丛生，可是我们没有理由放弃奔跑···

这个flag无论对于你我来说都是一个考验，在第一篇HDFS的时候，就说过了这虽然是类似于一份学习笔记，可是绝对有头有尾，会用最清晰明了的语言来描述知识点，希望大家也能有所收获。以这个目录为证，相信我一定能说到做到。

现在有在经营自己的知识星球，免费但不代表会没有收获。对大数据方向感兴趣的同学可以关注一下