首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
程序媛的A梦口袋
一个Small程序媛
创建于2022-07-26
订阅专栏
专业靠谱是最低成本的社交
暂无订阅
共19篇文章
创建于2022-07-26
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
用户数据分析与最佳实践 |青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第18天. 大数据 理论基础 mp.weixin.qq.com/s/M31wOLDkm… mp.weixin.qq.com/s/-BHgnvN8G… mp.w
用户数据分析与最佳实践 |青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第17天. 一、为什么做行为数据分析 二、数据分析的各个环节 这里包含4个部分。数据源、分析工具、可视化以及贯穿全程的指标体系。 首先我们先看一下数据源,没有
数据中心建设实践思路与企业实践 |青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第17天. 课程回顾 一、企业数据架构 企业整体数据架构:基础引擎、数据集成/生产/服务、开发和治理工具 关键模块及数据流向 数据集成 业务数据收集:数据库变
深入理解K8S资源管理和调度 |青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第16天. 课前导学 推荐文章: www.cio.com/article/247… www.sumologic.com/insight/kub… 左图:根据主
走进YARN资源管理和调度 |青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第15天. 背景: 阅读书籍《大数据日知录》,概要性了解大数据是什么、大数据领域常用的算法与数据结构、资源管理与任务调度系统设计的基本问题与典型调度策略; 阅
浅谈一致性协议 |青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第14天. 背景知识 远程过程调用(RPC) 分布式系统中通常将不同组件,或者不同节点的交互使用 RPC 的方式进行封装,在调用方的视角一次远程过程调用不需要
LMST 存储引擎浅析 |青训营笔记
LSMT 的优势:顺序写模型对于 SSD 设备更友好、SST 不可修改的特性使得其能使用更加紧凑的数据排列和加上压缩、后台延迟 Compact 能更好利用 CPU 多核处理能力,降低前台请求延迟
Parquet与ORC:高性能列式存储 |青训营笔记
列式存储作为大数据领域数据格式层的通用实践,是连接计算引擎和存储引擎之间的桥梁,Parquet 和 ORC 作为业界应用最为广泛的两种列存格式,被深入的使用到绝大部分的大数据分析作业中。
从Kafka到pulsar-数据流演进之路 |青训营笔记
消息队列的应用场景有哪些? Pulsar 相比较与 Kafka 为什么和云原生更加适配? 存储计算分离带来的优势? 存储计算分离之后,计算层可以做哪些工作?
数据湖三剑客 :Delta Lake、Hudi、Icebery详解 |青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第10天. 下面我们来开启数据流部分。Parquet-高性能列式存储:过滤下推到存储侧,更好地压缩性能文件格式列存储,类似于CSV。
深入浅出HBase实战 |青训营笔记
HDFS是一种开源的分布式文件系统,基于常见商用硬件构造海量大规模存储集群,提供极低的存储成本,极大的存储容量支持。HBase是基于HDFS实现存储计算分离架构的分布式表格存储服务。
HDFS高可用与高扩展性机制分析 |青训营笔记
在上节课中,我们了解了HDFS的架构和读写流程。HDFS通过将文件分块来存储大文件,HDFS的组件有NN、DN、Client等。一个可以用的系统和好用的系统,差距就是高可用和高扩展性。
HDFS原理与应用 |青训营笔记
在之前的课程中,我们学习了计算框架Flink、Spark以及查询引擎Presto。下面让我们看看数据是如何存放的。
Presto架构原理与优化 |青训营笔记
Presto 作为大数据领域常见的计算引擎,支持多数据源联邦查询、多租户任务的管理与调度,并且具有内存化计算、pipeline化处理数据等特点,使其在交互式 SQL 查询领域中被广泛使用。
大数据Shuffle原理与实践 |青训营笔记
一、Shuffle概述 二、shuffle算子 三、Shuffle过程 四、Push Shuffle五、
Spark 原理与实践 |青训营笔记
一、大数据处理引擎Spark介绍 二、SparkCore原理解析 三、SparkSQL原理解析 四、业界挑战与实践 五、课后自测
流式计算中的Window机制 |青训营笔记
1、概述流式计算跟批计算,以及实时数仓和离线数仓的区别;引出流式计算中的window计算定义以及挑战。 2、介绍实时计算中的Watermark概念,以及如何产生、传递,还有一些典型的应用。
流/批/OLAP一体的Flink引擎 |青训营笔记
一、Flink概述 二、Flink整体架构 三、Flink架构优化 四、Flink应用案例 流/批/OLAP一体的Flink引擎
SQL Optimizer解析 | 青训营笔记
一、大数据体系 二、SQL处理流程 三、常见查询优化器 四、社区开源实现--Apache calcite