首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据青训营
恣潜
创建于2022-07-26
订阅专栏
大数据青训营
暂无订阅
共14篇文章
创建于2022-07-26
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
走进 YARN 资源管理和调度|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 15 天! YARN 概述 YARN是一个分布式的资源管理系统。 YARN是Hadoop系统的核心组件,主要功能包括负责在Hadoop集群中的资源管理,负
浅谈分布式一致性协议|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 14 天! 基础知识点 远程过程调用(RPC) 分布式系统中通常将不同组件,或者不同节点的交互使用 RPC 的方式进行封装,在调用方的视角一次远程过程调用
LSMT 存储引擎浅析|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 13 天! LSMT的历史 LSMT是 Log-Structured Merge-Tree的缩写,由Patrick O 'Neil etc.在1996年的
Parquet 和 ORC:高性能列式存储
这是我参与「第四届青训营 」笔记创作活动的第 10 天! 行存 vs 列存 数据格式层概述 计算层:各种计算引擎 存储层:承载数据的持久化存储 数据格式层:定义了存储层文件内部的组织格式,计算引擎通过
从 Kafka 到 Pulsar的数据流演进之路|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 9 天! 消息队列概述 消息队列应用场景 MQ 消息通道 EventBridge 事件总线 Data Platform 数据流平台 主流消息队列介绍 Ra
深入浅出 HBase 实战|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 8 天! 适用场景 “近在线”的海量分布式KV/宽表存储,数据量级达到百TB级以上 写密集型应用,高吞吐,可接受一定的时延抖动 需要按行顺序扫描的能力 接
HDFS高可用与高扩展机制|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 8 天! 元数据高可用 定义 高可用:系统在困境(adversity,比如硬件故障、软件故障、人为错误)中仍可正常工作(正确完成功能,并能达到期望的性能水
HDFS原理与应用|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 7 天! HDFS 基本介绍 Hadoop技术体系 存储层:HDFS 调度层:YARN 计算框架:MapReduce。值得注意的是另外一个同属于Apach
Spark原理与实践|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 6 天! 大数据处理引擎Spark 介绍 Spark 生态 Spark的运行架构和工作原理 Spark应用在集群上运行时,包括了多个独立的进程,这些进程之
流式计算中的 windows 机制|青训营笔记
这是我参加「第四届青训营」笔记创作活动的第 5 天! Watermark 1、什么是 Watermark 表示系统认为的当前真实的事件时间。 批处理是一段长时间(往往一天)后对输入计算,得到输出。但是
查询优化器(补)|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 4 天! 1、 常见的查询优化器 查询优化器分类 Top-down Optimizer 从目标输出开始,由上往下遍历计划树,找到完整的最优执行计划 例子:
第三节:Exactly Once 语义在 Flink 中的实现|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 3 天! 1、数据流和动态表 传统SQL和流处理 有界:数据在一定程度上固定 流:数据源源不断改变、增减 数据流和动态表转换 动态表 : 随时间不断变
第二节:流_批_OLAP一体的Flink引擎|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 2 天!是关于流_批_OLAP一体的Flink引擎|青训营笔记
大数据体系和SQL|青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第 1 天! 文章包括大数据体系、SQL处理流程、分布式中的Shuffle、SQL中group by与 join