首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
执着码农
创建于2024-11-04
订阅专栏
大数据计算、存储知识收栏
等 2 人订阅
共12篇文章
创建于2024-11-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hbase原理解析—写数据流程
本篇继续介绍HBase写数据put的核心原理 写数据流程简述 Client先访问zookeepr,获取hbase:meta表位于哪个RegionServer哪个Region中并且缓存到metaCach
HBase原理解析—读数据流程
读数据流程简述 CLient先访问Zookeeper,获取hbase:meta表位于哪个RegionServer中并且缓存到MetaCache 访问对应的RegionServer,获取hbase:me
HBase原理解析—Flush与Compaction
随着数据的不断写入,MemStore中存储的数据会越来越多,系统为了将使用的内存保持在一个合理的水平,会将MemStore中的数据写入文件形成HFile。flush阶段是Hbase的非常核心阶段,需要
HFile原理解析-HBase高性能查询之道
在大数据分析领域,有几种通用的文件格式,如Parquet、RCFile、ORCFile、CarbonData等等,这些文件大都是基于列示的设计结构,来加速通用的分析型查询。但是在实时数据库领域,却以各
Hbase体系结构
前序 HBase体系结构借鉴了BigTable论文,是典型的Master-Slave模型 hbase核心架构由五部分组成:分别是Hbase client、HMaster、Region Server、Z
Flink架构浅析:流表二象性
背景 很对大数据相关的产品,都对用户或者分析师提供了SQL API,比如Hive,Spark,Flink等,SQL作为传统关系型数据库的查询语言,是应用在批查询场景的,Hive和Spark本质是都是批
Flink架构浅析:如何计算&容灾
背景 前面分析了Flink在计算处理流过程中Stream转为动态表、动态表上进行连续查询、生成新的动态表、动态表转为Stream将其写入外部表,本篇从对以下三个问题进行解剖分析: 如何进行计算 如何处
Flink源码解读系列:Flink工程目录
背景 Flink已经成为未来流计算趋势,目前包括阿里在内的很多大厂已经广泛使用。前段时间在团队内部分享了flink的基本概念相关,感觉深入还是需要去撸下代码,相关内核就是java代码实现的,最近开始学
Presto 源码解析:RESTful 处理和客户端查询流程
1、Presto 的概念 Presto 是一个用于大数据分析的高性能、基于内存的、分布式SQL查询引擎,主要基于 Java 开发,最初由 Facebook 开源,后项目一分为二,其中之一名称为Trin
大数据工程之Flink架构浅析
背景 身在大数据工程团队,经常同ODPS&D2&Flink打交道,了解掌握大数据相关知识对工程端还是有必要;早期团队技术之美围绕Flink专题学习了论文《Apache Flink™: Stream a
Presto分布式SQL查询原理
背景 基于上一篇对<Presto>源码的解读,了解了Presto基本原理和使用方式。但书上的内容还是讲的比较浅,对于其中的分布式SQL查询原理,通过网上的资料进行了更深入的了解,这里特将学习的分布式查
Spark—RDD架构浅析
一、前言 团队技术之美FY22财年S1阶段学习了Spark RDD架构以及原理,业余时间对Spark、Hadoop生态进行了学习和总结,并在团队内部进行了架构分享。 二、产生背景 MapReduce作