首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
用户00073516551
更多收藏集
微信扫码分享
微信
新浪微博
QQ
8篇文章 · 0订阅
Parquet 与 ORC:高性能列式存储 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第14天。 大数据生态 Hive 元数据管理 Hudi Iceberg 等 狭义‘数据湖’ 所有的数据集作业可以简化为 从存储服务读取数据 计算引擎解析和计算
Flume+Hadoop:打造你的大数据处理流水线
引言 在大数据处理中,日志数据的采集是数据分析的第一步。Apache Flume是一个分布式、可靠且可用的系统,用于有效地收集、聚合和移动大量日志数据到集中式数据存储。本文将详细介绍如何使用Flume
一文读懂MapReduce
Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型,又是一个计算框架。也就是说,开发人员必须基于MapReduce编程模型进行编程开发,然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型…
使用 ClickHouse 深入了解 Apache Parquet (二)
这篇文章是我们的 Parquet 和 ClickHouse 博客系列的第二部分。在这篇文章中,我们将更详细地探讨 Parquet 格式,重点介绍使用 ClickHouse 读写文件时要考虑的关键细节。
【数据库】关于 LSM-Tree 的原理讲解
LSM Tree原理讲解,面临的读放大、写放大等问题,以及相应的两种size-tiered和leveled压缩策略
YARN:分布式资源管理框架
对Yarn知识体系的全面总结,仅万字的Yarn架构介绍,加入个人理解更加通俗易懂,对于Hadoopd体系认知有非常大的帮助。
HBase:基础篇
HBase(Hadoop Database)是一个高可靠、高性能、面向列、可伸缩的KV分布式数据库,利用HBase技术可在廉价PC上搭建起大规模结构化存储集群。 HBase参考Google的BigTable建模,使用类似GFS的HDFS作为底层文件存储系统,在其上可以运行Map…
一篇文章深入浅出理解zookeeper
浅显易懂的全面了解分布式协调服务--zookeeper