大数据知识仓库,助你大数据之路~

681 阅读3分钟

概述

  • 知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。

仓库地址

GitHub:目前已经350+ star,并且持续更新中...期待你的star与关注,共同成长共同进步。

仓库目录

image.png

基础能力

数据结构

分布式理论

  • 分布式架构

计算机理论

  • LSM存储模型

Scala

  • ScalaOverView

JVM

Java

并发编程

  • 认识并发编程
  • 并发工具包

JDK源码

todo

算法

  • 算法题解

BigData

zeppelin

  • zeppelin

datalake

hudi

  • Hudi概览
  • Hudi整合Spark
  • Hudi整合Flink
  • Hudi调优实践
  • Hudi原理分析

iceberg

  • IceBerg概览
  • IceBerg整合Flink
  • IceBerg整合Hive
  • IceBerg整合Spark

rocksDB

  • rocksDB概述
  • rocksDB配置
  • rocksDB组件描述
  • rocksdb on flink
  • rocksdb API

Hadoop

  • 广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。

HDFS

  • Hadoop快速入门
  • HDFSOverView
  • Hadoop广义生态系统
  • Hadoop高可用配置
  • HadoopCommon分析
  • HDFS集群相关管理
  • HDFS Shell

MapReduce

  • 分布式处理框架MapReduce
  • MapReduce概览
  • MapReduce调优
  • MapReduce数据相关操作
  • MapReduce输入输出剖析
  • MapReduce的工作机制

Yarn

  • Yarn快速入门

生产配置

  • Hadoop高可用配置
  • Hadoop生产相关配置

Canal

  • CanalOverView

Debezium

  • DebeziumOverView
  • Debezium踩坑
  • Debezium监控系统搭建
  • Debezium使用改造

Hive

  • HiveOverwrite
  • Hive SQL
  • Hive调优指南
  • Hive踩坑解决方案
  • Hive编程指南读书笔记
  • Hive Shell Beeline
  • Hive分区表和分桶表

Spark

  • 主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。

Spark OverView

  • Spark基础入门
  • SparkOnDeploy
  • Spark调度系统
  • Spark计算引擎和Shuffle
  • Spark存储体系
  • Spark大数据处理读书笔记

Spark Core

  • SparkCore
  • SparkOperator
  • SparkConnector

Spark SQL

  • SparkSQLAPI
  • SparkSQL
  • SparkSQL API

Spark Practice

  • Spark生产实践

Spark Streaming

  • SparkStreaming
  • SparkStreaming整合Flume

源码解析

  • 从浅到深剖析Spark源码
  • 源码分析系列

Zookeeper

  • Zookeeper原理和参数配置
  • Zookeeper操作与部署

Flume

  • Flume快速入门
  • Flume对接Kafka

Kafka

  • kafka概览
  • 基本概念
  • kafka监控
  • 生产者源码剖析
  • 消费者源码剖析
  • kafkaShell
  • kafka权威指南读书笔记
  • 深入理解Kafka读书笔记

Pulsar

  • 快速入门
  • 原理与实践

HBase

  • HBase概览
  • HBaseShell
  • HBaseJavaAPI
  • HBase整合MapReduce
  • HBase过滤器

Sqoop

  • SqoopOverview
  • Sqoop实战操作

Azkaban

  • Azkaban生产实践

DolphinScheduler

  • DolphinScheduler快速开始

Flink

  • 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等

Core

  • FlinkOverView
  • CheckPoint机制
  • TableSQLOverview
  • DataStream API
  • ProcessFunction API
  • Data Source
  • Table API
  • Flink SQL
  • Flink Hive
  • Flink CEP
  • Flink Function
  • DataSource API

SourceCode

  • FlinkCheckpoint源码分析
  • FlinkSQL源码解析
  • Flink内核源码分析
  • Flink网络流控及反压
  • TaskExecutor内存模型原理深入
  • Flink窗口实现应用
  • Flink运行环境源码解析
  • FlinkTimerService机制分析
  • StreamSource源解析
  • Flink状态管理与检查点机制

Book

Flink内核原理与实现
  • 1-3章读书笔记
  • 第4章时间与窗口
  • 5-6章读书笔记
  • 第7章状态原理
  • 第8章作业提交
  • 第9章资源管理
  • 第10章作业调度
  • 第11-13章Task执行数据交换等

Feature

  • Flink1.12新特性
  • Flink1.13新特性
  • Flink1.14新特性

Practice

  • Flink踩坑指南
  • 记录一次Flink反压问题
  • Flink SQL实践调优

Connector

  • 自定义Table Connector

monitor

  • 搭建Flink任务指标监控系统

olap

  • 主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。

Presto

  • presto概述

clickhouse

  • ClickHouse快速入门
  • ClickHouse表引擎

Druid

  • Druid概述

Kylin

  • Kylin概述

Kudu

  • KuduOverView
  • Kudu表和Schema设计
  • KuduConfiguration
  • Kudu原理分析
  • Kudu踩坑
  • Kudu存储结构架构图
  • Kudu生产实践
paper
  • Kudu论文阅读

Impala

  • ImpalaOverView
  • ImpalaSQL
  • Impala操作KUDU
  • Impala生产实践

SQL语法树

calcite

  • ApacheCalciteOverView

数据仓库

  • 数据建模
  • 数据仓库建模
  • 数据仓库
  • 基于Flink的实时数仓建设
  • 自研数据中台设计
  • Kudu数据冷备

读书笔记

  • 数据中台读书笔记

devops

  • shell命令
  • Linux命令
  • openshift基础命令

maven

  • maven骨架制作
  • maven命令

服务监控

  • Prometheus

mac

  • iterm2