首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据笔记
一位程序猿
创建于2022-07-24
订阅专栏
大数据相关知识
暂无订阅
共11篇文章
创建于2022-07-24
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
使用 Docker 开发镜像编译doris源码
安装 Doris,需要先通过源码编译,主要有两种方式:使用 Docker 开发镜像编译(推荐)、直接编译。
关于流计算的一点思考 | 青训营
这是我参与「第四届青训营 」笔记创作活动的第16天。 初始化(在两节点主程序启动前执行)运行一次即可,两节点各自运行主程序
hadoop三大组件之一:YARN | 青训营
这是我参与「第四届青训营 」笔记创作活动的第15天。YARN是一种新的 Hadoop 资源管理器可为上层计算应用提供统一的和资源管理调度,提高集群硬件资源的利用率。
浅析列式存储格式Parquet和ORC | 青训营
大数据作业简化来说就是从存储服务取数据,由计算引擎对数据进行解析和计算,最后将结果存储或可视化展示。
列式存储浅析 | 青训营
这是我参与「第四届青训营 」笔记创作活动的第13天。 列存与行存对比 行存:按行写入数据,读取数据时需要读取不必要的列,适用于OLTP系统 列存:可以只读取请求的列,适用于OLAP系统。
项目所用工具介绍 | 青训营
这是我参与「第四届青训营 」笔记创作活动的第12天。 项目所用工具: Github 版本控制、大数据框架hdfs、kafka。
浅析 HBase | 青训营
这是我参与「第四届青训营 」笔记创作活动的第11天。 Hbase介绍 Hbase是采用列式存储,数据存储在hdfs上,因此易扩展高可靠,用于处理大规模数据的分布式非关系型数据库。
Kafka与Pulsar消息队列 | 青训营
这是我参与「第四届青训营 」笔记创作活动的第10天。 消息队列为了异步处理:异步、解耦、削峰。 消息队列的两种模式:点对点模式、发布/订阅模式。
数据湖三大框架 | 青训营
这是我参与「第四届青训营 」笔记创作活动的第9天。 湖仓一体结合数据湖和数据仓库的优势,将数据仓库中对于数据的严格管理直接实现到了低成本的分布式存储之上。
实现单节点流计算应用 | 青训营
这是我参与「第四届青训营 」笔记创作活动的第8天。 实时流计算框架 流计算中重要的两个基本组件:用于传递事件的队列和用于执行计算逻辑的线程。
Exactly Once 语义在 Flink 中的实现 | 青训营笔记
从数据流和动态表的含义出发引出Exactly-Once和Checkpoint机制保证故障发生时,保证对数据消费的不丢不重。