大数据笔记

大数据笔记

大数据笔记

大数据相关知识

暂无订阅共11篇文章创建于2022-07-24

使用 Docker 开发镜像编译doris源码

安装 Doris，需要先通过源码编译，主要有两种方式：使用 Docker 开发镜像编译（推荐）、直接编译。

3年前
4.2k
3
评论

关于流计算的一点思考 | 青训营

这是我参与「第四届青训营」笔记创作活动的第16天。初始化（在两节点主程序启动前执行）运行一次即可，两节点各自运行主程序

3年前
103
点赞
评论

hadoop三大组件之一：YARN | 青训营

这是我参与「第四届青训营」笔记创作活动的第15天。YARN是一种新的 Hadoop 资源管理器可为上层计算应用提供统一的和资源管理调度，提高集群硬件资源的利用率。

3年前
146
点赞
评论

浅析列式存储格式Parquet和ORC | 青训营

大数据作业简化来说就是从存储服务取数据，由计算引擎对数据进行解析和计算，最后将结果存储或可视化展示。

3年前
207
点赞
评论

列式存储浅析 | 青训营

这是我参与「第四届青训营」笔记创作活动的第13天。列存与行存对比行存：按行写入数据，读取数据时需要读取不必要的列，适用于OLTP系统列存：可以只读取请求的列，适用于OLAP系统。

3年前
131
点赞
评论

项目所用工具介绍 | 青训营

这是我参与「第四届青训营」笔记创作活动的第12天。项目所用工具： Github 版本控制、大数据框架hdfs、kafka。

3年前
142
点赞
评论

浅析 HBase | 青训营

这是我参与「第四届青训营」笔记创作活动的第11天。 Hbase介绍 Hbase是采用列式存储，数据存储在hdfs上，因此易扩展高可靠，用于处理大规模数据的分布式非关系型数据库。

3年前
130
点赞
评论

Kafka与Pulsar消息队列 | 青训营

这是我参与「第四届青训营」笔记创作活动的第10天。消息队列为了异步处理：异步、解耦、削峰。消息队列的两种模式：点对点模式、发布/订阅模式。

3年前
111
点赞
评论

数据湖三大框架 | 青训营

这是我参与「第四届青训营」笔记创作活动的第9天。湖仓一体结合数据湖和数据仓库的优势，将数据仓库中对于数据的严格管理直接实现到了低成本的分布式存储之上。

3年前
188
点赞
评论

实现单节点流计算应用 | 青训营

这是我参与「第四届青训营」笔记创作活动的第8天。实时流计算框架流计算中重要的两个基本组件：用于传递事件的队列和用于执行计算逻辑的线程。

3年前
181
点赞
评论

Exactly Once 语义在 Flink 中的实现 | 青训营笔记

从数据流和动态表的含义出发引出Exactly-Once和Checkpoint机制保证故障发生时，保证对数据消费的不丢不重。

3年前
136
2
评论