首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
青训营-大数据
二粒砂
创建于2022-10-15
订阅专栏
第四届青训营大数据专场
暂无订阅
共15篇文章
创建于2022-10-15
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
SQL查询优化器浅析 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的的第1天 一、本堂课重点内容: 本堂课的知识要点有哪些? 二、详细知识点介绍: 1.大数据体系和SQL 介绍大数据体系和SQL的处理流程,重点介绍SQL在分布
流/批/OLAP 一体的Flink引擎介绍 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第2天 1.Flink概述 为什么会有流式计算的需求,为什么Flink能够脱颖而出,Flink当前的开源生态 ①Apache Flink的诞生背景 什么是大数
Exactly Once语义在Flink中的实现 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第3天 1.数据流和动态表 如何在数据流上执行SQL语句,说明流式处理中状态的概念 ①传统SQL和流处理对比 ②数据流和动态表转换 在流上定义表 动态表:与表
流计算中的Window计算 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第4天 1.概述 简述流式计算的基本概念,与批式计算相比的难点和挑战 ①流式计算vs批式计算 数据价值:实时性更高,数据价值更高 ②批处理 批处理模型典型的数
Spark原理与实践 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第5天 1.大数据处理引擎Spark介绍 Spark:用于大规模数据处理的统一的引擎,可用于单机节点或者集群上进行数据工程、数据科学和机器学习 ①Spark生
大数据Shuffle原理与实践 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第6天 1.Shuffle概述 Shuffle是什么,为什么需要Shuffle,Shuffle的基本过程是怎么样的 ①MapReduce概述 在开源实现的Ma
Presto架构原理与优化介绍 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第7天 1.概述 ①大数据与OLAP系统的演进 大数据其实是在2000年后,因为信息化的快速发展,信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数
HDFS原理与应用 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第8天 1.HDFS基本介绍 HDFS:Hadoop Distributed File System spark不是Hadoop的子项目,但是其很多功能的实现
HDFS高可用和高扩展机制分析 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第9天 一个“可以用”的系统和“好用”的系统,差距就是“高可用”和“高可扩展性” 1.元数据高可用 主备系统:基于日志、自动切换、实时热备 ①高可用的需求 服
深入浅出HBase实战 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第10天 1.适用场景 介绍HBase的设计理念、数据模型、适用场景、业界典型用例 ①什么是HBase HBase是一个开源的NoSQL分布式数据库,是Apa
数据湖三剑客:Delta Lake、Hudi与Iceberg详解 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第11天 1.发展历史 数据湖三阶段:Hadoop、Hive、湖仓一体 ①数据湖发展阶段1-Hadooop 数据湖最开始的概念——分布式存储HDFS 使用目录
从Kafka到Pulsar:数据流演进之路 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第12天 1.消息队列概述 消息队列在各个领域扮演的角色 ①消息队列的应用场景 MQ消息通道 异步解耦 削峰填谷 发布订阅 高可用 EventBridge数据
Parquet与ORC:高性能列式存储 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第13天 所有大数据作业简单来说都可以简化为 从存储服务读取数据 计算引擎解析和计算数据 结果呈现 “如何高效从存储读取所需的数据”是决定大数据计算作业性能的
LSMT存储引擎浅析 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第14天 LSMT:Log-Structured Merge-Tree 1.LSMT与存储引擎介绍 ①LSMT是什么 一言以蔽之,通过Append-only
浅谈分布式一致性协议 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第15天 1.分布式系统 ①分布式系统面临的挑战 数据规模越来越大 服务的可用性要求越来越高 快速迭代的业务要求系统足够易用 ②理想中的分布式系统 高性能:可