大数据

大数据

大数据

大数据计算、存储知识收栏

等 2 人订阅共12篇文章创建于2024-11-04

Hbase原理解析—写数据流程

本篇继续介绍HBase写数据put的核心原理写数据流程简述 Client先访问zookeepr，获取hbase:meta表位于哪个RegionServer哪个Region中并且缓存到metaCach

1年前
257
1
评论

HBase原理解析—读数据流程

读数据流程简述 CLient先访问Zookeeper，获取hbase:meta表位于哪个RegionServer中并且缓存到MetaCache 访问对应的RegionServer，获取hbase:me

1年前
245
1
评论

HBase原理解析—Flush与Compaction

随着数据的不断写入，MemStore中存储的数据会越来越多，系统为了将使用的内存保持在一个合理的水平，会将MemStore中的数据写入文件形成HFile。flush阶段是Hbase的非常核心阶段，需要

1年前
179
3
评论

HFile原理解析-HBase高性能查询之道

在大数据分析领域，有几种通用的文件格式，如Parquet、RCFile、ORCFile、CarbonData等等，这些文件大都是基于列示的设计结构，来加速通用的分析型查询。但是在实时数据库领域，却以各

1年前
234
1
评论

Hbase体系结构

前序 HBase体系结构借鉴了BigTable论文，是典型的Master-Slave模型 hbase核心架构由五部分组成：分别是Hbase client、HMaster、Region Server、Z

1年前
221
1
评论

Flink架构浅析：流表二象性

背景很对大数据相关的产品，都对用户或者分析师提供了SQL API，比如Hive，Spark，Flink等，SQL作为传统关系型数据库的查询语言，是应用在批查询场景的，Hive和Spark本质是都是批

1年前
176
1
评论

Flink架构浅析：如何计算&容灾

背景前面分析了Flink在计算处理流过程中Stream转为动态表、动态表上进行连续查询、生成新的动态表、动态表转为Stream将其写入外部表，本篇从对以下三个问题进行解剖分析：如何进行计算如何处

1年前
161
1
评论

Flink源码解读系列：Flink工程目录

背景 Flink已经成为未来流计算趋势，目前包括阿里在内的很多大厂已经广泛使用。前段时间在团队内部分享了flink的基本概念相关，感觉深入还是需要去撸下代码，相关内核就是java代码实现的，最近开始学

1年前
273
1
评论

Presto 源码解析：RESTful 处理和客户端查询流程

1、Presto 的概念 Presto 是一个用于大数据分析的高性能、基于内存的、分布式SQL查询引擎，主要基于 Java 开发，最初由 Facebook 开源，后项目一分为二，其中之一名称为Trin

1年前
464
2
1

大数据工程之Flink架构浅析

背景身在大数据工程团队，经常同ODPS&D2&Flink打交道，了解掌握大数据相关知识对工程端还是有必要；早期团队技术之美围绕Flink专题学习了论文《Apache Flink™: Stream a

1年前
333
2
评论

Presto分布式SQL查询原理

背景基于上一篇对<Presto>源码的解读，了解了Presto基本原理和使用方式。但书上的内容还是讲的比较浅，对于其中的分布式SQL查询原理，通过网上的资料进行了更深入的了解，这里特将学习的分布式查

1年前
478
2
评论

Spark—RDD架构浅析

一、前言团队技术之美FY22财年S1阶段学习了Spark RDD架构以及原理，业余时间对Spark、Hadoop生态进行了学习和总结，并在团队内部进行了架构分享。二、产生背景 MapReduce作

1年前
142
2
评论