首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
青训营笔记
用户3398530186343
创建于2022-08-30
订阅专栏
第四届青训营大数据基础班个人笔记
暂无订阅
共19篇文章
创建于2022-08-30
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据可视化理论与案例分析 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第19天 1. 定义 1.1 什么是可视化 可视化是用来创建图像、图表或动画以进行交互的任何技术. 1.2 什么是数据可视化 数据可视化相对于可视化只增加了数
数据中心建设实践思路与企业实践 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第18天 1. 企业数据架构 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive... 数据集成:业务数据收集(数
深入理解 K8S 资源管理和调度 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第17天 1. Kubernetes 简介 Pod PVC/PV/StorageClass Deployment Statefulset Node 1.1 K
走进 Yarn 资源管理和调度 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的的第16天 1 YARN概述 1.1 初识调度系统–场景导入 学校为改善学生生活新建了一所美食餐厅,餐厅座位有限且只能堂食; 各学院需缴纳一定管理费用后学生才能
浅谈分布式一致性协议 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的第15天 分布式系统 1 挑战 数据规模越来越大 服务的可用性要求越来越高 快速迭代的业务要求系统足够易用 2 理想分布式系统 高性能:可拓展、低时延、高吞吐
LSMT 存储引擎浅析 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的的第14天 LSMT的历史 LSMT是 Log-Structured Merge-Tree的缩写,由Patrick O 'Neil etc.在1996年的论文,
Parquet 与 ORC:高性能列式存储 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第13天 回顾 计算层:批式处理(Spark ),流式处理(Flink ),交互式分析(Presto) 存储层:HDFS,对象存储(公有云数据存储) 元数据管
从 Kafka 到 Pulsar的数据流演进之路 | 青训营笔记
这是我参与「第四届青训营 」 笔记创作活动的第12天 主流的消息队列 RabbitMQ RocketMQ Kafka Pulsar 推出时间 2007 2012 2010 2016 使用语言 Erla
数据湖三剑客:Delta Lake、Hudi 与 Iceberg 详解 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的的第11天 数据湖 数据仓库的主流定义是位于多个数据库上的大容量存储库,它的作用在于存储大量的结构化数据,为管理分析和业务决策提供统一的数据支持,存取过程相对
深入浅出 HBase 实战 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的第10天 Hbase简介 HBase是一个开源的NoSQL分布式数据库 采用存储计算分离架构 存储层基于HDFS存储数据,提供容错机制和高可靠性 计算层提供灵活
HDFS 高可用和高扩展机制分析| 青训营笔记
这是我参与「第四届青训营」笔记创作活动的第9天 元数据服务高可用需求 故障类型:硬件/软件/人为 灾难:数据中心级别不可用,比如机房断电,机房空调停机,机房间网络故障或者拥塞 服务可用性的衡量指标 M
HDFS 原理与应用 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的的第8天 HDFS原理与应用 HDFS原理 HDFS(Hadoop Distributed File System)是一个分布式文件系统,是谷歌的GFS山寨版本
Presto 架构原理与优化简介 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的的第7天。 大数据与OLAP的演变 信息交换:通信和网络宽带的大幅增长 信息存储:计算机存储量的大幅增长 信息处理:整理、转换、分析数据的能力大幅增长 Hado
大数据 Shuffle 原理与实践 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的的第6天。 Shuffle概述 shuffle的作用就是把map阶段和reduce阶段连接起来,充当一个桥梁的作用。 shuffle只能产生[k,v]类型的Pa
Spark 原理与实践 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的第5天。 大数据处理引擎Spark介绍 Spark生态和特点 统一引擎,支持多种分布式场景 多语言支持 可读写丰富数据源 丰富灵活的API算子 SparkCor
流计算中的Window计算 | 青训营笔记
这是我参与「第四届青训营」笔记创作活动的第4天 一、概述 1. 流式计算vs批式计算 特性 批式计算 流式计算 数据存储 HDFS、Hive Kafka、Pulsar 数据时效性 天级别 分钟级别 准
Exactly Once 语义在 Flink 中的实现 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第3天 大数据定义 大数据的定义:高速 (Velocity) 涌现的大量 (Volume) 的多样化 (Variety) 数据。这一定义还表明大数据具有 3V
流/批/OLAP 一体的 Flink 引擎介绍 | 青训营笔记
流/批/OLAP 一体的 Flink 引擎介绍 | 青训营笔记 这是我参与「第四届青训营 」笔记创作活动的第2天 大数据 大数据(Big Data):指无法在一定时间内用常规软件工具对其进行获取、存储
SQL Optimizer 解析|青训营笔记
SQL Optimizer 解析|青训营笔记 这是我参与「第四届青训营」笔记创作活动的的第1天。 SQL Optimizer是什么 SQL Optimizer是SQL查询优化器 SQL 查询优化的目的