青训营笔记

青训营笔记

青训营笔记

第四届青训营大数据基础班个人笔记

暂无订阅共19篇文章创建于2022-08-30

大数据可视化理论与案例分析 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第19天 1. 定义 1.1 什么是可视化可视化是用来创建图像、图表或动画以进行交互的任何技术. 1.2 什么是数据可视化数据可视化相对于可视化只增加了数

3年前
206
点赞
评论

数据中心建设实践思路与企业实践 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第18天 1. 企业数据架构计算/存储引擎：Flink、Spark、ClickHouse、Doris、Kafka、Hive... 数据集成：业务数据收集(数

3年前
199
点赞
评论

深入理解 K8S 资源管理和调度 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第17天 1. Kubernetes 简介 Pod PVC/PV/StorageClass Deployment Statefulset Node 1.1 K

3年前
138
点赞
评论

走进 Yarn 资源管理和调度 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第16天 1 YARN概述 1.1 初识调度系统–场景导入学校为改善学生生活新建了一所美食餐厅，餐厅座位有限且只能堂食; 各学院需缴纳一定管理费用后学生才能

3年前
172
点赞
评论

浅谈分布式一致性协议 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第15天分布式系统 1 挑战数据规模越来越大服务的可用性要求越来越高快速迭代的业务要求系统足够易用 2 理想分布式系统高性能：可拓展、低时延、高吞吐

3年前
176
点赞
评论

LSMT 存储引擎浅析 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第14天 LSMT的历史 LSMT是 Log-Structured Merge-Tree的缩写，由Patrick O 'Neil etc.在1996年的论文，

3年前
151
点赞
评论

Parquet 与 ORC：高性能列式存储 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第13天回顾计算层：批式处理（Spark ），流式处理（Flink ），交互式分析（Presto）存储层：HDFS，对象存储（公有云数据存储）元数据管

3年前
129
点赞
评论

从 Kafka 到 Pulsar的数据流演进之路｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第12天主流的消息队列 RabbitMQ RocketMQ Kafka Pulsar 推出时间 2007 2012 2010 2016 使用语言 Erla

3年前
115
点赞
评论

数据湖三剑客：Delta Lake、Hudi 与 Iceberg 详解 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第11天数据湖数据仓库的主流定义是位于多个数据库上的大容量存储库，它的作用在于存储大量的结构化数据，为管理分析和业务决策提供统一的数据支持，存取过程相对

3年前
151
点赞
评论

深入浅出 HBase 实战 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第10天 Hbase简介 HBase是一个开源的NoSQL分布式数据库采用存储计算分离架构存储层基于HDFS存储数据，提供容错机制和高可靠性计算层提供灵活

3年前
89
点赞
评论

HDFS 高可用和高扩展机制分析｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第9天元数据服务高可用需求故障类型：硬件/软件/人为灾难：数据中心级别不可用，比如机房断电，机房空调停机，机房间网络故障或者拥塞服务可用性的衡量指标 M

3年前
162
点赞
评论

HDFS 原理与应用 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第8天 HDFS原理与应用 HDFS原理 HDFS（Hadoop Distributed File System）是一个分布式文件系统，是谷歌的GFS山寨版本

3年前
75
点赞
评论

Presto 架构原理与优化简介｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第7天。大数据与OLAP的演变信息交换：通信和网络宽带的大幅增长信息存储：计算机存储量的大幅增长信息处理：整理、转换、分析数据的能力大幅增长 Hado

3年前
96
点赞
评论

大数据 Shuffle 原理与实践｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第6天。 Shuffle概述 shuffle的作用就是把map阶段和reduce阶段连接起来，充当一个桥梁的作用。 shuffle只能产生[k,v]类型的Pa

3年前
187
点赞
评论

Spark 原理与实践 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第5天。大数据处理引擎Spark介绍 Spark生态和特点统一引擎，支持多种分布式场景多语言支持可读写丰富数据源丰富灵活的API算子 SparkCor

3年前
154
点赞
评论

流计算中的Window计算 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第4天一、概述 1. 流式计算vs批式计算特性批式计算流式计算数据存储 HDFS、Hive Kafka、Pulsar 数据时效性天级别分钟级别准

3年前
134
点赞
评论

Exactly Once 语义在 Flink 中的实现｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的第3天大数据定义大数据的定义：高速 (Velocity) 涌现的大量 (Volume) 的多样化 (Variety) 数据。这一定义还表明大数据具有 3V

3年前
109
点赞
评论

流/批/OLAP 一体的 Flink 引擎介绍 | 青训营笔记

流/批/OLAP 一体的 Flink 引擎介绍 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第2天大数据大数据(Big Data):指无法在一定时间内用常规软件工具对其进行获取、存储

3年前
135
点赞
评论

SQL Optimizer 解析｜青训营笔记

SQL Optimizer 解析｜青训营笔记这是我参与「第四届青训营」笔记创作活动的的第1天。 SQL Optimizer是什么 SQL Optimizer是SQL查询优化器 SQL 查询优化的目的

3年前
239
点赞
评论